Ser-H0.5: Escalado del Aprendizaje Robótico Centrado en el Humano para la Generalización Trans-Embodiment
Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization
January 19, 2026
Autores: Hao Luo, Ye Wang, Wanpeng Zhang, Sipeng Zheng, Ziheng Xi, Chaoyi Xu, Haiweng Xu, Haoqi Yuan, Chi Zhang, Yiqing Wang, Yicheng Feng, Zongqing Lu
cs.AI
Resumen
Presentamos Being-H0.5, un modelo fundamental Visión-Lenguaje-Acción (VLA) diseñado para una robusta generalización cruzada entre distintas plataformas robóticas. Mientras que los modelos VLA existentes a menudo tienen dificultades con la heterogeneidad morfológica y la escasez de datos, proponemos un paradigma de aprendizaje centrado en el humano que trata los rastros de interacción humana como una "lengua materna" universal para la interacción física. Para respaldar esto, presentamos UniHand-2.0, la receta de pre-entrenamiento corporizado más grande hasta la fecha, que comprende más de 35,000 horas de datos multimodales en 30 embodimientos robóticos distintos. Nuestro enfoque introduce un Espacio de Acción Unificado que mapea los controles heterogéneos de los robots en espacios semánticamente alineados, permitiendo que los robots con pocos recursos inicialicen habilidades a partir de datos humanos y de plataformas con muchos recursos. Construido sobre esta base centrada en el humano, diseñamos un paradigma unificado de modelado secuencial y pre-entrenamiento multi-tarea para tender un puente entre las demostraciones humanas y la ejecución robótica. Arquitectónicamente, Being-H0.5 utiliza un diseño de Mezcla de Transformadores (Mixture-of-Transformers) que presenta un novedoso marco de Mezcla de Flujos (Mixture-of-Flow, MoF) para desacoplar primitivas motoras compartidas de expertos especializados específicos de cada embodimiento. Finalmente, para que las políticas de cross-embodiment sean estables en el mundo real, introducimos una Compuerta que Preserva la Variedad (Manifold-Preserving Gating) para robustez bajo cambios sensoriales y Fragmentación Asíncrona Universal (Universal Async Chunking) para universalizar el control fragmentado entre embodimientos con diferentes perfiles de latencia y control. Demostramos empíricamente que Being-H0.5 logra resultados de vanguardia en benchmarks de simulación, como LIBERO (98.9%) y RoboCasa (53.9%), al mismo tiempo que exhibe sólidas capacidades de cross-embodiment en cinco plataformas robóticas.
English
We introduce Being-H0.5, a foundational Vision-Language-Action (VLA) model designed for robust cross-embodiment generalization across diverse robotic platforms. While existing VLAs often struggle with morphological heterogeneity and data scarcity, we propose a human-centric learning paradigm that treats human interaction traces as a universal "mother tongue" for physical interaction. To support this, we present UniHand-2.0, the largest embodied pre-training recipe to date, comprising over 35,000 hours of multimodal data across 30 distinct robotic embodiments. Our approach introduces a Unified Action Space that maps heterogeneous robot controls into semantically aligned slots, enabling low-resource robots to bootstrap skills from human data and high-resource platforms. Built upon this human-centric foundation, we design a unified sequential modeling and multi-task pre-training paradigm to bridge human demonstrations and robotic execution. Architecturally, Being-H0.5 utilizes a Mixture-of-Transformers design featuring a novel Mixture-of-Flow (MoF) framework to decouple shared motor primitives from specialized embodiment-specific experts. Finally, to make cross-embodiment policies stable in the real world, we introduce Manifold-Preserving Gating for robustness under sensory shift and Universal Async Chunking to universalize chunked control across embodiments with different latency and control profiles. We empirically demonstrate that Being-H0.5 achieves state-of-the-art results on simulated benchmarks, such as LIBERO (98.9%) and RoboCasa (53.9%), while also exhibiting strong cross-embodiment capabilities on five robotic platforms.