本报讯 (记者 刘琴)近日,由中国电子技术标准化研究院基于编制中的国家标准《人工智能具身智能大模型系统技术要求》正式发布“求索”具身智能测评基准EIBench,同时邀请多家国内顶尖具身智能团队参与首次测评。
在本次测评中,北京人形机器人创新中心的XR-1模型成为唯一一个通过测试的VLA(视觉-语言-动作)模型,获CESI-CTC-20251103具身智能测试证书,也成为了全国首个获此殊荣的VLA模型。
据悉,“求索”具身智能测评基准EIBench,是针对具身智能数据难复用、模型泛化性差、安全难保障等产业痛点推出的首个具身智能领域评测基准,聚焦数据格式、具身智能大模型、安全及可信赖度等,形成基于国家标准的测评指标体系。该标准在模型侧主要面向VLA和VLM(视觉-语言模型)两类具身智能大模型,这也代表着我国具身智能行业发展在规范化和标准化的方向上迈出了关键一步。
作为基于视觉、语言和动作等多模态数据集进行训练的大模型,VLA能够打破传统具身智能系统中“感知-决策-执行”的模块分离局限,实现端到端闭环,同时借助大规模基础模型的泛化能力,能够实现跨任务、跨机器人和零样本的适应能力;也因为VLA 模型能够理解自然语言指令,可以使人与具身智能体之间的交互更加自然、高效。
根据介绍,EIBench在数据格式方面推动打造统一数据格式;其次,模型方面,形成了“三个一”的测评准则:
一条标准化流程,实现可复现的公平评测——建设了评测任务确定-训练数据采集-模型定向训练-任务真机测试-测试结果分析的标准化流程。
一个综合任务库,覆盖多维度复杂场景——设置了“单臂操作”、“双臂异步操作”和“双臂协同操作”3种难度等级,覆盖移动、放置、推、拉、倾斜、按压、插入、旋转等8类核心动作单元,全面考核模型基础物理交互能力。
一套测试指标,量化模型综合性能——建立了多维度量化指标体系,包括任务成功率、平均执行用时、人工干预次数、危险操作次数及指令跟随率等,全面覆盖任务完成能力、执行效率、自主可控性及安全可靠性等核心要求,反映模型在实际场景中的综合性能表现。
北京人形创新中心相关负责人告诉记者,在测试中,XR-1模型共在天工2.0、UR、Franka等三款机器人上,针对取放、推拉、旋转、插入等双臂技能进行基础测试,以及物体颜色、位置、姿态,环境亮度、色温,背景、干扰物等七大维度的泛化测试。每项测试定量采集40-50条少量数据,在每个任务每项测试维度进行10次以上的真机测试,测试全程由中国电子技术标准化研究院专家参与,在流程设计和实际执行层面均做到了标准化公平可复现。
“本次XR-1成为唯一通过测试的具身VLA模型,具有着里程碑式的意义。标准确立后,能够推动具身智能产业生态的良性发展和可持续创新,创新中心未来将继续以技术突破与产业实践,推动具身智能加速迈向‘最聪明和最好用’的新高度。”北京人形机器人创新中心相关负责人说。
友情链接: 政府 高新ios版怎么下载taptap合作媒体
Copyright 1999-2025 www.fbi-it.comfbi-it.com All Rights Reserved.京ICP备14033264号-5
电信与信息服务业务经营许可证060344号主办单位:《taptap点点线上技术产业导报》社有限责任公司