Being-H0.5: Масштабирование обучения роботов, ориентированного на человека, для обобщения между различными воплощениями
Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization
January 19, 2026
Авторы: Hao Luo, Ye Wang, Wanpeng Zhang, Sipeng Zheng, Ziheng Xi, Chaoyi Xu, Haiweng Xu, Haoqi Yuan, Chi Zhang, Yiqing Wang, Yicheng Feng, Zongqing Lu
cs.AI
Аннотация
Мы представляем Being-H0.5 — базовую модель «Зрение-Язык-Действие» (Vision-Language-Action, VLA), разработанную для надежной кросс-эмбодиментной обобщаемости на разнообразных роботизированных платформах. В то время как существующие VLA-модели часто сталкиваются с проблемами морфологической неоднородности и нехватки данных, мы предлагаем ориентированную на человека парадигму обучения, которая рассматривает траектории человеческого взаимодействия как универсальный «родной язык» физического взаимодействия. Для поддержки этого подхода мы представляем UniHand-2.0 — крупнейший на сегодняшний день рецепт эмбодированного предварительного обучения, содержащий более 35 000 часов мультимодальных данных для 30 различных роботизированных воплощений. Наш метод вводит Унифицированное Пространство Действий, которое отображает гетерогенные управления роботами в семантически выровненные слоты, позволяя маломощным роботам заимствовать навыки из человеческих данных и высокопроизводительных платформ. Построенная на этой человеко-ориентированной основе, мы разрабатываем унифицированную парадигму последовательного моделирования и многозадачного предварительного обучения для соединения человеческих демонстраций и роботизированного исполнения. Архитектурно Being-H0.5 использует дизайн Mixture-of-Transformers с новой структурой Mixture-of-Flow (MoF) для разделения общих моторных примитивов и специализированных экспертов, специфичных для воплощения. Наконец, для обеспечения стабильности кросс-эмбодиментных политик в реальном мире мы вводим Manifold-Preserving Gating для устойчивости к сенсорным сдвигам и Universal Async Chunking для универсализации чанкованного управления across воплощений с различной задержкой и профилями управления. Экспериментально мы демонстрируем, что Being-H0.5 достигает state-of-the-art результатов на симуляционных benchmarks, таких как LIBERO (98.9%) и RoboCasa (53.9%), а также проявляет сильные кросс-эмбодиментные способности на пяти роботизированных платформах.
English
We introduce Being-H0.5, a foundational Vision-Language-Action (VLA) model designed for robust cross-embodiment generalization across diverse robotic platforms. While existing VLAs often struggle with morphological heterogeneity and data scarcity, we propose a human-centric learning paradigm that treats human interaction traces as a universal "mother tongue" for physical interaction. To support this, we present UniHand-2.0, the largest embodied pre-training recipe to date, comprising over 35,000 hours of multimodal data across 30 distinct robotic embodiments. Our approach introduces a Unified Action Space that maps heterogeneous robot controls into semantically aligned slots, enabling low-resource robots to bootstrap skills from human data and high-resource platforms. Built upon this human-centric foundation, we design a unified sequential modeling and multi-task pre-training paradigm to bridge human demonstrations and robotic execution. Architecturally, Being-H0.5 utilizes a Mixture-of-Transformers design featuring a novel Mixture-of-Flow (MoF) framework to decouple shared motor primitives from specialized embodiment-specific experts. Finally, to make cross-embodiment policies stable in the real world, we introduce Manifold-Preserving Gating for robustness under sensory shift and Universal Async Chunking to universalize chunked control across embodiments with different latency and control profiles. We empirically demonstrate that Being-H0.5 achieves state-of-the-art results on simulated benchmarks, such as LIBERO (98.9%) and RoboCasa (53.9%), while also exhibiting strong cross-embodiment capabilities on five robotic platforms.