Being-H0: Pré-treinamento Visão-Linguagem-Ação com Base em Vídeos Humanos em Larga Escala
Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos
July 21, 2025
Autores: Hao Luo, Yicheng Feng, Wanpeng Zhang, Sipeng Zheng, Ye Wang, Haoqi Yuan, Jiazheng Liu, Chaoyi Xu, Qin Jin, Zongqing Lu
cs.AI
Resumo
Apresentamos o Being-H0, um modelo Visão-Linguagem-Ação (VLA) habilidoso treinado em vídeos humanos em grande escala. Os VLAs existentes enfrentam dificuldades com tarefas de manipulação complexas que exigem alta destreza e generalizam mal para cenários e tarefas novos, principalmente devido à sua dependência de dados sintéticos com grandes lacunas de simulação-realidade ou demonstrações teleoperadas que carecem de escala e diversidade. Para superar esse gargalo de dados, propomos aproveitar as mãos humanas como um manipulador fundamental, capitalizando a rica destreza e escalabilidade presentes em dados da web. Nossa abordagem centra-se no ajuste físico por instrução, um paradigma de treinamento inovador que combina pré-treinamento VLA em grande escala a partir de vídeos humanos, alinhamento do espaço físico para raciocínio 3D e adaptação pós-treinamento para tarefas robóticas. Além disso, introduzimos um método de tokenização de movimento em nível de partes, que alcança precisão de reconstrução em nível milimétrico para modelar trajetórias precisas das mãos no aprendizado de ações. Para apoiar nosso paradigma proposto, desenvolvemos ainda um pipeline abrangente de curadoria de dados que integra fontes heterogêneas — incluindo captura de movimento, realidade virtual (VR) e vídeos apenas RGB — em um conjunto de dados em grande escala com milhões de instâncias instrucionais baseadas em movimento. Demonstramos empiricamente a excelência do Being-H0 na geração de movimentos das mãos e no seguimento de instruções, além de sua boa escalabilidade com o tamanho do modelo e dos dados. Importante destacar, observamos os ganhos esperados do Being-H0 na manipulação robótica do mundo real à medida que o ajuste físico por instrução é aplicado. Mais detalhes estão disponíveis em https://beingbeyond.github.io/Being-H0.
English
We introduce Being-H0, a dexterous Vision-Language-Action model (VLA) trained
on large-scale human videos. Existing VLAs struggle with complex manipulation
tasks requiring high dexterity and generalize poorly to novel scenarios and
tasks, primarily due to their reliance on synthetic data with significant
sim-to-real gaps or teleoperated demonstrations lacking scale and diversity. To
address this data bottleneck, we propose leveraging human hands as a foundation
manipulator, capitalizing on the rich dexterity and scalability present in web
data. Our approach centers on physical instruction tuning, a novel training
paradigm that combines large-scale VLA pretraining from human videos, physical
space alignment for 3D reasoning, and post-training adaptation for robotic
tasks. Additionally, we introduce a part-level motion tokenization method which
achieves millimeter-level reconstruction accuracy to model precise hand
trajectories for action learning. To support our proposed paradigm, we further
develop a comprehensive data curation pipeline that integrates heterogeneous
sources -- including motion capture, VR, and RGB-only videos -- into a
large-scale dataset with millions of motion-based instructional instances. We
empirically show the excellence of Being-H0 in hand motion generation and
instruction following, and it also scales well with model and data sizes.
Importantly, we observe the expected gains of Being-H0 in real-world robotic
manipulation as physical instruction tuning is applied. More details are
available at https://beingbeyond.github.io/Being-H0.