新京报贝壳财经讯(记者魏博雅)11月11日晚,据北京仿人机器人创新中心官方账号消息,11月7日,中国电子技术标准化研究院正式启动了筹备中的基于国家标准《人工智能嵌入式智能大模型系统技术要求》的“探秘”具身智能评测EIBench,并邀请了多个国家高水平具身智能团队。参与初步评估。在本次评测中,北京仿人机器人创新中心的XR-1模型成为唯一通过测试的VLA模型,并获得具身智能测试证书CESI-CTC-20251103,成为国内首个通过测试的VLA模型。据报道,Qi的EIBench内置智能评估基准侧重于数据格式、内置智能大模型、安全性和可靠性等方面,形成了评估标准以国家标准为基础的评价指标体系。就模型而言,该标准主要针对两类大型智能嵌入式模型:VLA和VLM。在模型方面,EIBench形成了“3-1”评估标准,包括标准化流程以实现可重复和公平的评估,并建立了确定评估任务-训练数据收集-面向模型的训练-任务现场测试-测试结果分析的标准化流程。覆盖多维度、复杂场景的综合任务库。一组用于量化整体模型性能的测试指标。在安全方面,建立了14个顶级指标,包括可控性、稳健性、责任性、隐私保护、功能安全性和弹性。测试过程中,每次测试都会收集40到50个少量的定量数据,并对每个任务和测试维度进行至少10次物理测试。中国研究院专家电子技术标准化中心负责整个测试过程。无论是流程设计还是实际执行层面都是标准化的、公平的、可重复的。杨丽遮瑕膏