九游娱乐广告:国产VLA模型开源！35000小时练习数据全球最大规划

来源：九游娱乐广告发布时间：2026-01-22 01:12:39

详细介绍

九游体育娱乐:

机器人前瞻1月20日报导，今日， Being Beyond发布跨本体VLA模型

Being Beyond不只公开了预练习与后练习的悉数模型参数，还供给完好的练习与评价代码，以及一套可复现1000+ GPU小时练习的详细配方。未来，其还将逐渐开源真机布置代码与接口。

Being-H0.5经过整合数万小时人类视频以及当时全球简直一切干流机器人构型的操作数据，在视觉‑言语‑动作（VLA）使命中展现出较强的跨本体泛化才能——不管硬件形状怎么差异，模型皆能快速习惯、安稳履行。

Being-H0.5根据human-centric learning，包含30种不同本体（是π0.5的5倍），能够在必定程度上完结超强跨本体泛化，对相同一批使命，只需练习一次，就能布置在5个不同本体上。

功能方面，Being-H0.5在大规划预练习加持下，即便只微调2%的模型参数也能到达90%以上的相对performance；其在LIBERO和RoboCasa到达SoTA，还完结了全球最快的端侧布置速度，在Orin-NX上到达实时。

UniHand2.0数据集总时长逾越3.5万小时，包含14,000 小时的机器人操作数据， 16,000 小时的人类视频数据，以及5000小时通用多模态数据，总练习 token 数打破 1200 亿。这是全球初次在机器人范畴进行如此大规划、跨本体的数据整合测验。

与以往仅根据“轮式底盘 + 双臂夹爪”范式的研讨（如 π 系列作业）不同，UniHand2.0 初次完结了跨本体的大规划数据交融，汇集了逾越30种不同硬件构型的多样化数据，包含了从桌面机械臂到双足机器人在内简直一切已知的机器人形状。

▲UniHand与现有VLA数据集规划比照：超3.5万小时和30余本体，在规划和多样性上提升了3倍以上

在Being‑H0.5 之前，没有有研讨测验将如此多异构本体数据一致用于练习——其中心应战在于，不同机器人的状况空间与动作空间差异巨大，直接混合练习极易引发“数据抵触”，导致模型难以收敛或泛化。

为处理上述难题，BeingBeyond 团队提出了一致动作空间结构，将双足人形、轮式底盘、桌面机械臂、夹爪、灵活手等形状各异的机器人，映射到同一特征表明空间中，然后有用支撑跨本体联合练习与常识搬迁。

当时具身职业，不管是机器人规划、数据收集计划（如 UMI、传统遥操作），仍是使命规划，本质上都在仿照人类，以人为中心。而人类自身，就可被视为一切下流机器人的“原型模板”。

针对人类视频遍及缺少高质量标示的痛点，团队还规划了一套名为UniCraftor的便携、可扩展、低本钱的人类视频收集体系：

在一致动作空间的基础上，Being‑H0.5 提出了一套完好的以人为中心的预练习范式。详细包含：

一致序列化建模：不再为人类演示、机器人轨道和视觉文本数据建立独立的练习流水线，而是将它们转化成一致的多模态token序列。在这个序列中，视觉和文本担任供给布景信息，而一致的“状况/动作”Token 则承载物理交互信号。

混合监督（多目标优化）：在同一个序列上根据数据特色运用不同的丢失函数。如针对文本数据（如 VQA、运动描绘）的Next-token Prediction；针对离散人类动作的Masked Token Prediction，针对接连人类和机器人数据，则在一致空间内进行动作猜测（Action Prediction）等。

这种交融的预练习方法能让模型能在从人类行为中提取高层级的、可搬迁的交互逻辑（先验）的一起，从机器人数据中提炼高精度的运动操控常识。

传统的VLA，尤其是近期盛行的根据flow-matching架构的模型，其模型容量因为参数巨细存在约束，这导致VLA在混合异构数据来进行预练习时的功能直线下降，一起也阻止了模型泛化到各种杂乱下流使命的才能。为客服这样的一个问题，团队针对性地进行了一系列架构立异。

首要，受大模型 MoE 架构启示，团队规划了Mixture-of-Flow（MoF）架构，将动作专家（action expert）解耦为担任学习通用的运动原语（如：物体怎么运动）的同享专家，以及经过机器人感知路由，担任特定形状精准履行的特化专家。

此外，针对实际布置中的颤动和推迟问题，团队引入了流形坚持门控（Manifold-Preserving Gating, MPG）以保证在感知含糊时模型能退回到鲁棒的先验散布；以及通用异步分块（Universal Async Chunking, UAC）技能，使同一个模型能完美适配不同操控频率和推迟的机器人硬件。

为验证 Being‑H0.5 的跨本体才能，研讨团队在 PND、G1、Franka 等不同构型的人形机器人、机械臂本体进步行了很多真机试验。

在海量、多源数据的加持下，模型展现出较强的跨本体与杂乱使命履行才能，乃至能完结 “用按压喷壶浇花” 这类以往夹爪式机器人难以完结的操作。

在四组使命上打开的定量评测验验中，Being-H0.5不管是generalist（多本体数据混合练习，难度更大）仍是specialist（单一本体数据分隔练习，较简略），功能体现都远优于仅能依托单一本体练习的 π-0.5模型。一起，Being-H0.5-generalist模型在均匀功能体现上和specialist相等，展现出其跨本体维度上的强壮泛化才能。

为定量评价模型功能，团队在 LIBERO、RoboCasa 等遍及的运用的评测基准进步行了测验。在仅依靠仿照学习与纯 RGB 视觉输入的条件下，模型均匀取得了 98.9% 与 54% 的成功率，不只逾越了 π0.5、GR00T 等一切已知 VLA 模型，乃至优于部分凭借强化学习与 3D 模态的计划，展现出较强的SOTA功能和竞争力。

Being-H0.5的推出，为具身智能范畴供给了一种新的技能范式思路：高质量练习数据并非有必要源于自建的高本钱机器人集群。针对“怎么高效适配多元本体、低本钱获取优质练习数据”这一中心职业应战，Being-H0.5将视角转向人类自身这一最丰厚、最天然的数据源泉。

这一技能途径在某些特定的程度上降低了具身智能技能的研制门槛，使得企业无需投入巨额资金构建数据“护城河”，便可依托以人为中心的学习范式（human-centric learning），开发适配多元本体的通用算法。

上一篇:宠智灵宠物 AI 大模型：赋能宠物智能硬件厂商破解同质化困局

下一篇:中关村科金以大模型外呼赋能春风奕派轿车营销新打破

产品中心

产品中心

新闻资讯

联系我们

九游娱乐广告:国产VLA模型开源！35000小时练习数据全球最大规划

相关新闻：

底部导航

新闻动态

联系我们