Essere-H0.5: Scalabilità dell'Apprendimento Robotico Centrato sull'Uomo per la Generalizzazione Trans-Embodiment

Abstract

Presentiamo Being-H0.5, un modello fondazionale Visione-Linguaggio-Azione (VLA) progettato per una robusta generalizzazione cross-embodiment su piattaforme robotiche diverse. Mentre i VLA esistenti spesso incontrano difficoltà con l'eterogeneità morfologica e la scarsità di dati, noi proponiamo un paradigma di apprendimento human-centric che tratta le tracce di interazione umana come un "linguaggio madre" universale per l'interazione fisica. A supporto di ciò, presentiamo UniHand-2.0, la più vasta ricetta di pre-training embodied fino ad oggi, comprendente oltre 35.000 ore di dati multimodali su 30 embodiment robotici distinti. Il nostro approccio introduce uno Spazio d'Azione Unificato che mappa i controlli eterogenei dei robot in slot semanticamente allineati, permettendo a robot con poche risorse di acquisire competenze dai dati umani e da piattaforme ad alte risorse. Costruito su questa base human-centric, progettiamo un paradigma unificato di modellazione sequenziale e pre-training multi-task per colmare il divario tra dimostrazioni umane ed esecuzione robotica. Architetturalmente, Being-H0.5 utilizza un design Mixture-of-Transformers che include un nuovo framework Mixture-of-Flow (MoF) per disaccoppiare i primitivi motori condivisi da esperti specializzati specifici per embodiment. Infine, per rendere le politiche cross-embodiment stabili nel mondo reale, introduciamo il Manifold-Preserving Gating per la robustezza sotto shift sensoriale e l'Universal Async Chunking per universalizzare il controllo a chunk tra embodiment con diversa latenza e profili di controllo. Dimostriamo empiricamente che Being-H0.5 raggiunge risultati state-of-the-art su benchmark simulati, come LIBERO (98.9%) e RoboCasa (53.9%), mostrando anche forti capacità cross-embodiment su cinque piattaforme robotiche.

English

We introduce Being-H0.5, a foundational Vision-Language-Action (VLA) model designed for robust cross-embodiment generalization across diverse robotic platforms. While existing VLAs often struggle with morphological heterogeneity and data scarcity, we propose a human-centric learning paradigm that treats human interaction traces as a universal "mother tongue" for physical interaction. To support this, we present UniHand-2.0, the largest embodied pre-training recipe to date, comprising over 35,000 hours of multimodal data across 30 distinct robotic embodiments. Our approach introduces a Unified Action Space that maps heterogeneous robot controls into semantically aligned slots, enabling low-resource robots to bootstrap skills from human data and high-resource platforms. Built upon this human-centric foundation, we design a unified sequential modeling and multi-task pre-training paradigm to bridge human demonstrations and robotic execution. Architecturally, Being-H0.5 utilizes a Mixture-of-Transformers design featuring a novel Mixture-of-Flow (MoF) framework to decouple shared motor primitives from specialized embodiment-specific experts. Finally, to make cross-embodiment policies stable in the real world, we introduce Manifold-Preserving Gating for robustness under sensory shift and Universal Async Chunking to universalize chunked control across embodiments with different latency and control profiles. We empirically demonstrate that Being-H0.5 achieves state-of-the-art results on simulated benchmarks, such as LIBERO (98.9%) and RoboCasa (53.9%), while also exhibiting strong cross-embodiment capabilities on five robotic platforms.

Essere-H0.5: Scalabilità dell'Apprendimento Robotico Centrato sull'Uomo per la Generalizzazione Trans-Embodiment

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

Abstract

Support