

2026年春节前夜,MiniMax肃肃上线新一代文本模子MiniMax M2.5。当各家大模子厂商围绕“春节档”张开密集发布与营销攻势,这款定位为“原生Agent坐蓐级模子”的居品,肃肃加入这场被业界称为“AI诸神之战”的竞争。
尽管有着编程、器具调用、办公等坐蓐力场景群众SOTA获利,这家在成本市集备受瞩看法公司却思抛开参数领域与模子榜单的肤浅比拼,而是在科技圈通达另一种叙事:再行界说Agent2.0时期。
10B激活参数跑出旗舰获利
在编程智力方面,M2.5在巨擘榜单SWE-Bench Verified得分80.2%、Multi-SWE-Bench得分51.3%,较上一代显耀提高;在Multi-SWE-Bench等多话语复杂环境中卓绝Opus 4.6,达到了行业最佳的水平。更伏击的是,模子展现出“原生Spec智力”——在编码前主动拆解架构与功能盘算推算,更接近信得过架构师的责任花式。
器具调用和搜索智力方面,模子大致自动惩处复杂任务,在BrowseComp、Wide Search等多项 Agent 任务中以更低的轮次奢侈赢得了更优的恶果,相较于上一代模子发达提高20% ,达到了行业顶尖水平。

办公场景中,在 Word、PPT、Excel 金融建模等 Workspace 高阶场景中赢得了显耀的智力提高,在测评框架GDPval-MM与主流模子的对比赢得了 59.0%的平均胜率。
极致推理重构Agent经济
性能除外,M2.5的另一中枢亮点在于极致的推理速率与成本驱散。M2.5-lightning版块支捏100 TPS以上输出速率,是主流模子的2倍把握;输入价钱约0.3好意思元/百万Token,输出约2.4好意思元/百万Token。按每秒输出100 Token盘算推算,揣摸启动一小时成本约1好意思元;若按50 Token盘算推算,成本约0.3好意思元。
这意味着1万好意思元表面上可支捏4个Agent揣摸责任一年。MiniMax方面觉得,当性能与成本不再组成逼迫,Agent领域化部署的经济模子将发生压根变化。
在Vibecoding(氛围编程)越来越火确当下,M2.5的极致性价比可谓径直界说了信得过寰宇责任王者。
始创Agent RL撑捏高速进化
畴昔108天,MiniMax从M2、M2.1迭代至M2.5,在SWE-Bench Verified获利从69.4提高至80.2,跳动弧线在同行中尤为笔陡。团队将这一跃迁归因于大领域Agent强化学习(RL Scaling)。
其自研Forge框架通过解耦磨真金不怕火引擎与Agent,终了对随性Agent脚手架和器具的泛化优化,并通过异门径度与树状归并政策终了约40倍磨真金不怕火加快。同期,在算法层面领受CISPO优化与经由奖励机制,缓解长高下文场景中的信用分拨问题,并将“任务信得过耗时”纳入奖励函数,在恶果与反馈速率之间赢得均衡。

M2.5已于2月12日在 MiniMax Agent上线,并于13日群众开源支捏土产货化部署。不到一天,来自全寰宇的用户还是在MiniMax Agent上构建了1万多个群众,且仍在快速增长。
MiniMax示意,但愿在捏续提高模子智力的同期,构建一个可捏续膨胀的Agent生态-Agent Universe。当模子智力、泛化性和成本王人不再是瓶颈实盘配资门户_股票配资平台运作逻辑解析,Agent浸透到责任和生存的各个旯旮——从编程、办公到创作、文娱,大幅促进Agentic欺骗的进一步发展。
实盘配资门户_股票配资平台运作逻辑解析提示:本文来自互联网,不代表本网站观点。