Being-H0.5:クロスエンボディメント汎化のための人間中心ロボット学習のスケーリング
Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization
January 19, 2026
著者: Hao Luo, Ye Wang, Wanpeng Zhang, Sipeng Zheng, Ziheng Xi, Chaoyi Xu, Haiweng Xu, Haoqi Yuan, Chi Zhang, Yiqing Wang, Yicheng Feng, Zongqing Lu
cs.AI
要旨
我々はBeing-H0.5を紹介する。これは多様なロボットプラットフォーム間での堅牢なクロス・エンボディメント汎化を目的とした、基盤的Vision-Language-Action(VLA)モデルである。既存のVLAモデルが形態学的異質性とデータ不足に悩む中、我々は物理的インタラクションにおける普遍的な「母国語」として人間のインタラクション軌跡を扱う、人間中心の学習パラダイムを提案する。これを支えるため、30種類の異なるロボットエンボディメントにわたる35,000時間以上のマルチモーダルデータから構成される、現在最大規模の具身化事前学習レシピUniHand-2.0を提示する。我々のアプローチは、異種混在するロボット制御を意味的に整列されたスロットにマッピングする統一行動空間を導入し、低リソースロボットが人間データや高リソースプラットフォームから技能をブートストラップできるようにする。この人間中心の基盤の上に、人間のデモンストレーションとロボット実行を橋渡しする統一的な逐次モデリングとマルチタスク事前学習パラダイムを設計する。アーキテクチャ的には、Being-H0.5はMixture-of-Transformers設計を採用し、共有運動プリミティブを特殊化されたエンボディメント固有の専門家から分離する新規のMixture-of-Flow(MoF)フレームワークを特徴とする。最後に、クロス・エンボディメント方策を実世界で安定化させるため、センサリーシフト下での堅牢性を確保する多様体保存ゲーティングと、異なる遅延・制御プロファイルを持つエンボディメント間でチャンク制御を普遍化する普遍非同期チャンキングを導入する。実験により、Being-H0.5がLIBERO(98.9%)やRoboCasa(53.9%)などのシミュレーションベンチマークで最先端の結果を達成し、さらに5つのロボットプラットフォームで強力なクロス・エンボディメント能力を示すことを実証する。
English
We introduce Being-H0.5, a foundational Vision-Language-Action (VLA) model designed for robust cross-embodiment generalization across diverse robotic platforms. While existing VLAs often struggle with morphological heterogeneity and data scarcity, we propose a human-centric learning paradigm that treats human interaction traces as a universal "mother tongue" for physical interaction. To support this, we present UniHand-2.0, the largest embodied pre-training recipe to date, comprising over 35,000 hours of multimodal data across 30 distinct robotic embodiments. Our approach introduces a Unified Action Space that maps heterogeneous robot controls into semantically aligned slots, enabling low-resource robots to bootstrap skills from human data and high-resource platforms. Built upon this human-centric foundation, we design a unified sequential modeling and multi-task pre-training paradigm to bridge human demonstrations and robotic execution. Architecturally, Being-H0.5 utilizes a Mixture-of-Transformers design featuring a novel Mixture-of-Flow (MoF) framework to decouple shared motor primitives from specialized embodiment-specific experts. Finally, to make cross-embodiment policies stable in the real world, we introduce Manifold-Preserving Gating for robustness under sensory shift and Universal Async Chunking to universalize chunked control across embodiments with different latency and control profiles. We empirically demonstrate that Being-H0.5 achieves state-of-the-art results on simulated benchmarks, such as LIBERO (98.9%) and RoboCasa (53.9%), while also exhibiting strong cross-embodiment capabilities on five robotic platforms.