ChatPaper.aiChatPaper

Being-H0.5: Skalierung menschenzentrierten Robotiklernens für generalisierende Übertragbarkeit zwischen verschiedenen Körperformen

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

January 19, 2026
papers.authors: Hao Luo, Ye Wang, Wanpeng Zhang, Sipeng Zheng, Ziheng Xi, Chaoyi Xu, Haiweng Xu, Haoqi Yuan, Chi Zhang, Yiqing Wang, Yicheng Feng, Zongqing Lu
cs.AI

papers.abstract

Wir stellen Being-H0.5 vor, ein fundamentales Vision-Language-Action (VLA)-Modell, das für eine robuste generalisierte Anwendung über verschiedene Roboterplattformen hinweg (Cross-Embodiment-Generalization) konzipiert ist. Während bestehende VLA-Modelle oft mit morphologischer Heterogenität und Datenknappheit kämpfen, schlagen wir ein menschenzentriertes Lernparadigma vor, das menschliche Interaktionsdaten als universelle „Muttersprache“ für physische Interaktion behandelt. Um dies zu unterstützen, präsentieren wir UniHand-2.0, das bisher umfangreichste Rezept für Embodied Pre-Training, das über 35.000 Stunden multimodaler Daten von 30 verschiedenen Roboter-Embodiments umfasst. Unser Ansatz führt einen einheitlichen Aktionsraum (Unified Action Space) ein, der heterogene Robotersteuerungen in semantisch ausgerichtete Slots abbildet. Dies ermöglicht es ressourcenarmen Robotern, Fähigkeiten aus menschlichen Daten und von hochwertigen Plattformsystemen zu übernehmen. Auf dieser menschenzentrierten Grundlage aufbauend, entwerfen wir ein einheitliches Paradigma für sequentielle Modellierung und Multi-Task-Vortraining, um menschliche Demonstrationen und robotische Ausführung zu verbinden. Architektonisch nutzt Being-H0.5 ein Mixture-of-Transformers-Design mit einem neuartigen Mixture-of-Flow (MoF)-Framework, um gemeinsame motorische Primitive von spezialisierten, embodimentsspezifischen Experten zu entkoppeln. Schließlich führen wir, um cross-embodiment-Policies in der realen Welt stabil zu machen, eine manifold-erhaltende Gating-Methode (Manifold-Preserving Gating) für Robustheit unter sensorischen Verschiebungen und universelles asynchrones Chunking (Universal Async Chunking) ein, um eine segmentierte Steuerung über Embodiments mit unterschiedlichen Latenzzeiten und Steuerungsprofilen hinweg zu vereinheitlichen. Wir zeigen empirisch, dass Being-H0.5 state-of-the-art Ergebnisse auf simulierten Benchmarks wie LIBERO (98,9 %) und RoboCasa (53,9 %) erzielt und gleichzeitig starke Cross-Embodiment-Fähigkeiten auf fünf Roboterplattformen aufweist.
English
We introduce Being-H0.5, a foundational Vision-Language-Action (VLA) model designed for robust cross-embodiment generalization across diverse robotic platforms. While existing VLAs often struggle with morphological heterogeneity and data scarcity, we propose a human-centric learning paradigm that treats human interaction traces as a universal "mother tongue" for physical interaction. To support this, we present UniHand-2.0, the largest embodied pre-training recipe to date, comprising over 35,000 hours of multimodal data across 30 distinct robotic embodiments. Our approach introduces a Unified Action Space that maps heterogeneous robot controls into semantically aligned slots, enabling low-resource robots to bootstrap skills from human data and high-resource platforms. Built upon this human-centric foundation, we design a unified sequential modeling and multi-task pre-training paradigm to bridge human demonstrations and robotic execution. Architecturally, Being-H0.5 utilizes a Mixture-of-Transformers design featuring a novel Mixture-of-Flow (MoF) framework to decouple shared motor primitives from specialized embodiment-specific experts. Finally, to make cross-embodiment policies stable in the real world, we introduce Manifold-Preserving Gating for robustness under sensory shift and Universal Async Chunking to universalize chunked control across embodiments with different latency and control profiles. We empirically demonstrate that Being-H0.5 achieves state-of-the-art results on simulated benchmarks, such as LIBERO (98.9%) and RoboCasa (53.9%), while also exhibiting strong cross-embodiment capabilities on five robotic platforms.
PDF591January 22, 2026