首个具身智能领域评测基准EIBench发布 XR-1模型通过测试_www.fbi-it.com

首页正文

首个具身智能领域评测基准EIBench发布 XR-1模型通过测试

2025-11-17 10:17:39: 来源：taptap点点线上技术产业导报　作者：刘琴
分享到：

本报讯（记者刘琴）近日，由中国电子技术标准化研究院基于编制中的国家标准《人工智能具身智能大模型系统技术要求》正式发布“求索”具身智能测评基准EIBench，同时邀请多家国内顶尖具身智能团队参与首次测评。

在本次测评中，北京人形机器人创新中心的XR-1模型成为唯一一个通过测试的VLA（视觉-语言-动作）模型，获CESI-CTC-20251103具身智能测试证书，也成为了全国首个获此殊荣的VLA模型。

据悉，“求索”具身智能测评基准EIBench，是针对具身智能数据难复用、模型泛化性差、安全难保障等产业痛点推出的首个具身智能领域评测基准，聚焦数据格式、具身智能大模型、安全及可信赖度等，形成基于国家标准的测评指标体系。该标准在模型侧主要面向VLA和VLM（视觉-语言模型）两类具身智能大模型，这也代表着我国具身智能行业发展在规范化和标准化的方向上迈出了关键一步。

作为基于视觉、语言和动作等多模态数据集进行训练的大模型，VLA能够打破传统具身智能系统中“感知-决策-执行”的模块分离局限，实现端到端闭环，同时借助大规模基础模型的泛化能力，能够实现跨任务、跨机器人和零样本的适应能力；也因为VLA 模型能够理解自然语言指令，可以使人与具身智能体之间的交互更加自然、高效。

根据介绍，EIBench在数据格式方面推动打造统一数据格式；其次，模型方面，形成了“三个一”的测评准则：

一条标准化流程，实现可复现的公平评测——建设了评测任务确定-训练数据采集-模型定向训练-任务真机测试-测试结果分析的标准化流程。

一个综合任务库，覆盖多维度复杂场景——设置了“单臂操作”、“双臂异步操作”和“双臂协同操作”3种难度等级，覆盖移动、放置、推、拉、倾斜、按压、插入、旋转等8类核心动作单元，全面考核模型基础物理交互能力。

一套测试指标，量化模型综合性能——建立了多维度量化指标体系，包括任务成功率、平均执行用时、人工干预次数、危险操作次数及指令跟随率等，全面覆盖任务完成能力、执行效率、自主可控性及安全可靠性等核心要求，反映模型在实际场景中的综合性能表现。

北京人形创新中心相关负责人告诉记者，在测试中，XR-1模型共在天工2.0、UR、Franka等三款机器人上，针对取放、推拉、旋转、插入等双臂技能进行基础测试，以及物体颜色、位置、姿态，环境亮度、色温，背景、干扰物等七大维度的泛化测试。每项测试定量采集40-50条少量数据，在每个任务每项测试维度进行10次以上的真机测试，测试全程由中国电子技术标准化研究院专家参与，在流程设计和实际执行层面均做到了标准化公平可复现。

“本次XR-1成为唯一通过测试的具身VLA模型，具有着里程碑式的意义。标准确立后，能够推动具身智能产业生态的良性发展和可持续创新，创新中心未来将继续以技术突破与产业实践，推动具身智能加速迈向‘最聪明和最好用’的新高度。”北京人形机器人创新中心相关负责人说。

编辑：韩梦晨

相关阅读：

版权与免责声明:
①凡本站注明稿件来源为：taptap点点线上技术产业导报、www.fbi-it.com、中高新传媒的所有文字、图片和音视频稿件，版权均属本网所有，任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网授权使用作品的，被授权人应在授权范围内使用，并注明“来源：www.fbi-it.com、中高新传媒或者taptap点点线上技术产业导报”。违反上述声明者，本网将追究其相关法律责任。
② 任何单位或个人认为本网站或本网站链接内容可能涉嫌侵犯其合法权益，应该及时向本网站书面反馈，并提供身份证明，权属证明及详细侵权情况证明，本网站在收到上述文件后，将会尽快移除被控侵权的内容或链接。
③如因作品内容、版权和其他问题需要与本网联系的，请在该事由发生之日起30日内进行。电话：010-68667266 电子邮件：dbrmt#chih.org　(请将“#”换为“@”)