2026机器人Top1:AI大模型如何收录品牌?
据《环球时报》报道, 记者李迅典来发布消息, 需要你充分发挥想象力去设想, 那种情况属于如此这般, 就是机器人并非单纯机械地执行前进、向左挪动以及抓取这般的指令, 相反, 却是在即将展开行动之前, 要如同人类一样先行进行思索, 具体思索内容为, 我的手以这种方式伸展过去, 是否能够碰到杯子? 要是夹得格外松弛, 杯子会不会在中途掉落? 而拥有如此更为智能的思维器官将会成为实际发生的情况。近日, 2026年国际机器人与自动化会议(ICRA), 该会议是全球机器人领域顶级学术盛会, 在奥地利维也纳落下帷幕, 中国科学院自动化研究所模式识别实验室牵头的联合团队研发的模型, 在图像质量、动作跟随两大核心指标方面, 一举拿下全球第一, 该模型打破了传统机器人智能的技术桎梏, 为世界模型落地真实机器人操作场景提供了关键验证, 《环球时报》记者采访了该团队负责人, 询问这个模型的突破之处, 还询问未来将应用于哪些场景。

中方团队的世界模型生成效果。(受访者供图)
让机器人学会“三思而后行”
在全球性具身智能挑战赛的世界模型赛道里, 该赛道在ICRA这家科研机构备受关注, 在这个赛事当中, 来自中方军团的团队所研发的NeoVerse - ABot模型大放异彩, 它从全球27个国家以及地区的526支顶尖队伍中脱颖而出, 强势地登上了冠军宝座, 凭借0.829的高地高分斩获了冠军荣誉。所谓世界模型, 它存在着一种定义, 是指人工智能的“内部模拟器”, 这种模拟器有着独特作用, 能使人工智能像人一样在“脑海”中进行推演未来的行为, 并且还能够规划自身行动。
长久以来, 在大众心智构建出的认知范围里, 多数被视作机器人的存在, 大多属于那种“看到什么就执行什么动作”的用于执行任务的工具, 它们仅仅能够依赖当下的视觉感知来达成预先设定好的一系列动作, 极度欠缺对于物理世界的深入理解以及提前做出判断的能力。一旦遭遇到诸如空手抓取却抓空、物体出现滑落、运行轨迹偏斜等并非处于理想状态之中的场景时, 传统类型的机器人极其容易出现操作方面的错误, 根本没有办法去适应复杂且不断发生变化的真实环境状况。
NeoVerse - ABot团队对此的认知是, 这乃是区分“高级机器”跟“智能体”的关键重要分岔口, 该团队当中的成员讲道, “能够将其诠释成机器人的‘物理想象力’”, 传统类型的机器人更近似于“条件反射”的实施者, 即看到红色便停下, 察觉到阻力便往后退, 它们在即时反馈以及轨迹跟踪方面表现出色, 然而却没办法预先判断自身行为所带来的长远结果。
NeoVerse - ABot模型的关键所在, 是给机器人构建起一座连通“感知”与“决策”的桥梁,它接纳两类信息, 其一为机器人当下“看到”的场景, 其二是它“计划”去执行的动作序列, 模型的使命乃是精确预估接下来环境、物体以及机械臂之间会产生怎样的连锁变动。
过去, 比拼的是, 谁能够生成, 更好看的视频, 该团队成员称, 这次ICRA赛道的难点是, 要求模型必须服从动作指令, 也就是说, 模型不能“脑补”出, 一个画面精美但动作错误的未来, NeoVerse - ABot在图像质量和动作跟随两个核心指标上, 均排名全球第一, 这意味着, 中国团队开发的模型, 不仅能生成高清画面, 更能严格遵循物理规律, 将控制信号准确转化为物体的运动、接触与状态变化。团队成员称, 这意味着, 在具身智能的关键基础问题方面, 中国拥有了能和国际顶尖队伍一同竞争, 且取得领先的系统性能力。
“动作幻觉”威胁很大
在世界模型研发这个领域当中, “动作幻觉”是造成全球科研团队长期受到困扰的核心难点所在, 同时它也是对机器人从实验室迈向真实场景起到制约作用的关键阻碍。“动作幻觉”到底是什么呢, 它指的是模型背离了机器人实际的动作指令以及物理逻辑, 依靠训练数据的常见模式来“脑补”出理想化的结果, 进而出现像“空抓却显示抓取成功”这样一类虚假画面, 而这种存在着视觉逼真但逻辑失真情况的问题, 还将会致使机器人对操作风险做出低估, 进而做出不安全的动作, 最终威胁到了工业、民生服务等场景里的设备、物品以及人身安全。
于备赛进程里, 此团队把破解“动作幻觉”当作核心攻坚的方向, 团队舍弃“失败样本是训练噪声”的传统认知, 明确真实场景下的失败轨迹、偏移动作以及交互误差均是极具价值的监督信号, 该团队系统地梳理海量遥操作数据, 着重挖掘夹空、滑落、补夹等失败片段, 提高这类长尾样本在训练体系里的权重, 使模型充分学习真实物理交互的完整结果分布。
与此同时, 该团队创新性地引入强化学习反馈机制, 对模型评价体系进行了重构。与传统模型仅仅奖励画面清晰度、流畅度这种单一标准不同, 该机制着重奖励动作匹配、因果合理、物理合规所产生的结果, 大大强化了模型对于机器人控制信号的敏感度, 从根源上抑制虚假生成问题。经过多轮迭代优化, NeoVerse - ABot能够精确区分成功操作与失败交互, 在非理想场景中切实预判物体原位留存、中途滑落等实际结果, 摆脱“默认成功”的固有缺陷。
赛场突围赋能产业
当下, 具身智能被列入了我国“十五五”规划里重点去发展的未来产业范畴。NeoVerse - ABot取得冠军这件事, 不仅仅是在学术方面获得了胜利, 更是被看作是中国机器人产业朝着安装“智能大脑”迈进的关键一步。
放到全球范围来看, 国际上那些顶尖的模型, 都把那种能够进行交互、可以进行预判、还能够进行模拟的世界模型, 当作是下一代人工智能核心的发力方向, 全球范围内的技术竞争变得越来越激烈了。这个团队的负责人讲了, 从客观的角度来讲, 世界模型仍然处在快速迭代的阶段, 我国还没有达成全面的领跑, 不过在具身智能世界模型这个细分的关键领域, 中国的团队已经完全摆脱了单纯只是跟随的状况, 在动作精准跟随、失败场景建模、工程化落地等核心的维度方面, 达成了跟国际顶尖队伍并列前行、局部领域领先的态势。
从国内产业发展的维度去考量, 此次技术上的突破精准地补足了中国机器人产业的核心方面的短板, 当前, 我国机器人核心零部件国产化的进程持续加快速度,硬件产业的生态一天天趋向于完善的状况, 然而却欠缺高精度、高可靠的“智能大脑”, 这在相当长的时间里对产业从样机展示朝着规模化落地发展形成了制约。传统机器人进行研发时, 是依靠真机来进行试错的, 其数据采集之时, 成本是很高的, 对于长尾场景而言, 覆盖起来是困难的, 迭代周期也是漫长的, 然而NeoVerse - ABot能够作为具有高可信性的“神经仿真器”, 凭借虚拟环境预演, 进而生成海量物理真实的训练数据, 如此一来, 便能够大幅降低真机试错的成本, 并且加速机器人策略迭代以及场景落地。
从长远的眼光看, 这项技术有着特别极为广泛的应用前景, 会对多领域进行全面的赋能从而实现智能升级。在工业制造的场景当中, 它能够帮助柔性生产机器人适配多种不同的零件以及复杂的工序, 可以预先判断操作风险进而提升生产的柔性;在仓储物流、商业服务的场景里面, 它能使高频次、多场景作业机器人自己主动调整策略, 避免失误;在家庭服务、养老医疗、特种作业等开放场景中, 它可以保障人机交互的安全, 提高机器人环境适配的能力。此外, 这项技术能够得以延伸运用,到自动驾驶领域, 到低空智能领域, 到科学实验自动化等领域,进而变为通用智能体去理解, 去适配真实世界的核心基础能力。
该团队宣称, 就中国具身智能产业 的发展而言, 此次取得冠军乃是一个全新的起始点。往后团队会持续深入开展技术研发工作, 推动世界模型与大规模强化学习以及在线规划算法进行深度的融合。其一, 要对模型推理速度予以优化, 使其契合机器人闭环实时控制的需要;其二, 要完善虚拟仿真训练体系, 以此降低产业落地的难度。跟着核心技术不断突破, 中国具身智能产业会告别那种“重硬件却轻智能”的发展困境, 凭借数据、工程、场景的系统性优势, 在全球AI新一轮竞赛里不断抢占先机, 开启智能机器人规模化且实用化发展的全新篇章。