ChatPaper.aiChatPaper

Être-H0.5 : Mettre à l'échelle l'apprentissage robotique centré sur l'humain pour la généralisation trans-embodiment

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

January 19, 2026
papers.authors: Hao Luo, Ye Wang, Wanpeng Zhang, Sipeng Zheng, Ziheng Xi, Chaoyi Xu, Haiweng Xu, Haoqi Yuan, Chi Zhang, Yiqing Wang, Yicheng Feng, Zongqing Lu
cs.AI

papers.abstract

Nous présentons Being-H0.5, un modèle fondamental Vision-Langage-Action (VLA) conçu pour une généralisation robuste à la trans-embodiment sur diverses plateformes robotiques. Alors que les modèles VLA existants peinent souvent avec l'hétérogénéité morphologique et la rareté des données, nous proposons un paradigme d'apprentissage centré sur l'humain qui traite les traces d'interaction humaine comme une « langue maternelle » universelle pour l'interaction physique. Pour soutenir cette approche, nous présentons UniHand-2.0, la plus grande recette de pré-entraînement incarné à ce jour, comprenant plus de 35 000 heures de données multimodales couvrant 30 embodiments robotiques distincts. Notre méthode introduit un Espace d'Action Unifié qui mappe les contrôles hétérogènes des robots dans des emplacements sémantiquement alignés, permettant aux robots disposant de peu de ressources d'acquérir des compétences à partir des données humaines et des plateformes riches en données. Bâti sur cette fondation centrée sur l'humain, nous concevons un paradigme unifié de modélisation séquentielle et de pré-entraînement multi-tâches pour faire le lien entre les démonstrations humaines et l'exécution robotique. Sur le plan architectural, Being-H0.5 utilise une conception Mixture-of-Transformers intégrant un nouveau cadre Mixture-of-Flow (MoF) pour découpler les primitives motrices partagées des experts spécialisés spécifiques à chaque embodiment. Enfin, pour stabiliser les politiques de trans-embodiment dans le monde réel, nous introduisons le Manifold-Preserving Gating pour la robustesse face aux décalages sensoriels et l'Universal Async Chunking pour universaliser le contrôle par blocs à travers des embodiments ayant des latences et profils de contrôle différents. Nous démontrons empiriquement que Being-H0.5 obtient des résultats state-of-the-art sur des benchmarks de simulation, tels que LIBERO (98,9 %) et RoboCasa (53,9 %), tout en présentant de fortes capacités de trans-embodiment sur cinq plateformes robotiques.
English
We introduce Being-H0.5, a foundational Vision-Language-Action (VLA) model designed for robust cross-embodiment generalization across diverse robotic platforms. While existing VLAs often struggle with morphological heterogeneity and data scarcity, we propose a human-centric learning paradigm that treats human interaction traces as a universal "mother tongue" for physical interaction. To support this, we present UniHand-2.0, the largest embodied pre-training recipe to date, comprising over 35,000 hours of multimodal data across 30 distinct robotic embodiments. Our approach introduces a Unified Action Space that maps heterogeneous robot controls into semantically aligned slots, enabling low-resource robots to bootstrap skills from human data and high-resource platforms. Built upon this human-centric foundation, we design a unified sequential modeling and multi-task pre-training paradigm to bridge human demonstrations and robotic execution. Architecturally, Being-H0.5 utilizes a Mixture-of-Transformers design featuring a novel Mixture-of-Flow (MoF) framework to decouple shared motor primitives from specialized embodiment-specific experts. Finally, to make cross-embodiment policies stable in the real world, we introduce Manifold-Preserving Gating for robustness under sensory shift and Universal Async Chunking to universalize chunked control across embodiments with different latency and control profiles. We empirically demonstrate that Being-H0.5 achieves state-of-the-art results on simulated benchmarks, such as LIBERO (98.9%) and RoboCasa (53.9%), while also exhibiting strong cross-embodiment capabilities on five robotic platforms.
PDF591January 22, 2026