Ser-H0.5: Escalonando a Aprendizagem de Robôs Centrada no Humano para Generalização entre Embodiments

Resumo

Apresentamos o Being-H0.5, um modelo fundamental Visão-Linguagem-Ação (VLA) projetado para uma generalização robusta de incorporação cruzada em diversas plataformas robóticas. Enquanto os VLAs existentes frequentemente lutam contra a heterogeneidade morfológica e a escassez de dados, propomos um paradigma de aprendizagem centrado no humano que trata os rastros de interação humana como uma "língua materna" universal para a interação física. Para sustentar isso, apresentamos o UniHand-2.0, a maior receita de pré-treinamento incorporado até o momento, compreendendo mais de 35.000 horas de dados multimodais em 30 incorporações robóticas distintas. Nossa abordagem introduz um Espaço de Ação Unificado que mapeia controles heterogêneos de robôs em slots semanticamente alinhados, permitindo que robôs de baixos recursos inicializem habilidades a partir de dados humanos e de plataformas de altos recursos. Construído sobre esta base centrada no humano, projetamos um paradigma unificado de modelagem sequencial e pré-treinamento multitarefa para unir demonstrações humanas e execução robótica. Arquitetonicamente, o Being-H0.5 utiliza um design *Mixture-of-Transformers* com uma nova estrutura *Mixture-of-Flow* (MoF) para desacoplar primitivas motoras compartilhadas de especialistas específicos de incorporação. Finalmente, para tornar as políticas de incorporação cruzada estáveis no mundo real, introduzimos o *Manifold-Preserving Gating* para robustez sob mudança sensorial e o *Universal Async Chunking* para universalizar o controle segmentado entre incorporações com diferentes latências e perfis de controle. Demonstramos empiricamente que o Being-H0.5 alcança resultados de última geração em benchmarks simulados, como LIBERO (98,9%) e RoboCasa (53,9%), além de exibir fortes capacidades de incorporação cruzada em cinco plataformas robóticas.

English

We introduce Being-H0.5, a foundational Vision-Language-Action (VLA) model designed for robust cross-embodiment generalization across diverse robotic platforms. While existing VLAs often struggle with morphological heterogeneity and data scarcity, we propose a human-centric learning paradigm that treats human interaction traces as a universal "mother tongue" for physical interaction. To support this, we present UniHand-2.0, the largest embodied pre-training recipe to date, comprising over 35,000 hours of multimodal data across 30 distinct robotic embodiments. Our approach introduces a Unified Action Space that maps heterogeneous robot controls into semantically aligned slots, enabling low-resource robots to bootstrap skills from human data and high-resource platforms. Built upon this human-centric foundation, we design a unified sequential modeling and multi-task pre-training paradigm to bridge human demonstrations and robotic execution. Architecturally, Being-H0.5 utilizes a Mixture-of-Transformers design featuring a novel Mixture-of-Flow (MoF) framework to decouple shared motor primitives from specialized embodiment-specific experts. Finally, to make cross-embodiment policies stable in the real world, we introduce Manifold-Preserving Gating for robustness under sensory shift and Universal Async Chunking to universalize chunked control across embodiments with different latency and control profiles. We empirically demonstrate that Being-H0.5 achieves state-of-the-art results on simulated benchmarks, such as LIBERO (98.9%) and RoboCasa (53.9%), while also exhibiting strong cross-embodiment capabilities on five robotic platforms.

Ser-H0.5: Escalonando a Aprendizagem de Robôs Centrada no Humano para Generalização entre Embodiments

Being-H0.5: Scaling Human-Centric Robot Learning for Cross-Embodiment Generalization

Resumo

Support