ChatPaper.aiChatPaper

Being-H0.5: 교차 구현체 일반화를 위한 인간 중심 로봇 학습 확장

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

January 19, 2026
저자: Hao Luo, Ye Wang, Wanpeng Zhang, Sipeng Zheng, Ziheng Xi, Chaoyi Xu, Haiweng Xu, Haoqi Yuan, Chi Zhang, Yiqing Wang, Yicheng Feng, Zongqing Lu
cs.AI

초록

우리는 다양한 로봇 플랫폼 간의 강건한 교차 구현체 일반화를 위해 설계된 기초 Vision-Language-Action(VLA) 모델인 Being-H0.5를 소개한다. 기존 VLA 모델들이 형태학적 이질성과 데이터 부족 문제로 어려움을 겪는 반면, 우리는 인간 상호작용 흔적을 물리적 상호작용을 위한 보편적인 "모국어"로 간주하는 인간 중심 학습 패러다임을 제안한다. 이를 지원하기 위해 우리는 지금까지 가장 큰 구체화된 사전 학습 레시피인 UniHand-2.0을 제시하며, 이는 30가지의 서로 다른 로봇 구현체에 걸쳐 35,000시간 이상의 다중 모드 데이터로 구성된다. 우리의 접근 방식은 이기종 로봇 제어를 의미론적으로 정렬된 슬롯으로 매핑하는 통합 행동 공간을 도입하여, 저자원 로봇이 인간 데이터와 고자원 플랫폼으로부터 기술을 습득할 수 있도록 한다. 이 인간 중심 기반 위에, 우리는 인간 데모와 로봇 실행을 연결하기 위한 통합 순차 모델링 및 다중 작업 사전 학습 패러다임을 설계한다. 구조적으로 Being-H0.5는 공유된 운동 기본 요소를 특화된 구현체별 전문가로부터 분리하기 위한 새로운 Mixture-of-Flow(MoF) 프레임워크를 특징으로 하는 Mixture-of-Transformers 설계를 활용한다. 마지막으로, 교차 구현체 정책이 현실 세계에서 안정적으로 작동하도록 하기 위해, 우리는 감각 변화 하에서의 강건성을 위한 Manifold-Preserving Gating과 서로 다른 지연 시간 및 제어 프로파일을 가진 구현체 간에 청크 제어를 보편화하는 Universal Async Chunking을 도입한다. 우리는 Being-H0.5가 LIBERO(98.9%) 및 RoboCasa(53.9%)와 같은 시뮬레이션 벤치마크에서 최첨단 성능을 달성하는 동시에 5가지 로봇 플랫폼에서 강력한 교차 구현체 능력을 보임을 실증적으로 입증한다.
English
We introduce Being-H0.5, a foundational Vision-Language-Action (VLA) model designed for robust cross-embodiment generalization across diverse robotic platforms. While existing VLAs often struggle with morphological heterogeneity and data scarcity, we propose a human-centric learning paradigm that treats human interaction traces as a universal "mother tongue" for physical interaction. To support this, we present UniHand-2.0, the largest embodied pre-training recipe to date, comprising over 35,000 hours of multimodal data across 30 distinct robotic embodiments. Our approach introduces a Unified Action Space that maps heterogeneous robot controls into semantically aligned slots, enabling low-resource robots to bootstrap skills from human data and high-resource platforms. Built upon this human-centric foundation, we design a unified sequential modeling and multi-task pre-training paradigm to bridge human demonstrations and robotic execution. Architecturally, Being-H0.5 utilizes a Mixture-of-Transformers design featuring a novel Mixture-of-Flow (MoF) framework to decouple shared motor primitives from specialized embodiment-specific experts. Finally, to make cross-embodiment policies stable in the real world, we introduce Manifold-Preserving Gating for robustness under sensory shift and Universal Async Chunking to universalize chunked control across embodiments with different latency and control profiles. We empirically demonstrate that Being-H0.5 achieves state-of-the-art results on simulated benchmarks, such as LIBERO (98.9%) and RoboCasa (53.9%), while also exhibiting strong cross-embodiment capabilities on five robotic platforms.
PDF591January 22, 2026