Being-H0 : Prétraitement Vision-Langue-Action à partir de vidéos humaines à grande échelle
Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos
July 21, 2025
papers.authors: Hao Luo, Yicheng Feng, Wanpeng Zhang, Sipeng Zheng, Ye Wang, Haoqi Yuan, Jiazheng Liu, Chaoyi Xu, Qin Jin, Zongqing Lu
cs.AI
papers.abstract
Nous présentons Being-H0, un modèle vision-langage-action (VLA) dextre entraîné sur des vidéos humaines à grande échelle. Les VLAs existants peinent à accomplir des tâches de manipulation complexes nécessitant une dextérité élevée et généralisent mal à des scénarios et tâches nouveaux, principalement en raison de leur dépendance à des données synthétiques présentant d'importants écarts sim-to-real ou à des démonstrations téléopérées manquant d'échelle et de diversité. Pour résoudre ce goulot d'étranglement des données, nous proposons d'exploiter les mains humaines comme manipulateur de base, en capitalisant sur la riche dextérité et l'évolutivité présentes dans les données web. Notre approche repose sur le réglage par instruction physique, un nouveau paradigme d'entraînement qui combine un pré-entraînement VLA à grande échelle à partir de vidéos humaines, un alignement dans l'espace physique pour le raisonnement 3D, et une adaptation post-entraînement pour les tâches robotiques. De plus, nous introduisons une méthode de tokenisation du mouvement au niveau des parties, qui atteint une précision de reconstruction au millimètre pour modéliser des trajectoires de main précises dans l'apprentissage des actions. Pour soutenir ce paradigme, nous développons également un pipeline complet de curation de données qui intègre des sources hétérogènes -- incluant la capture de mouvement, la réalité virtuelle et des vidéos RGB uniquement -- dans un jeu de données à grande échelle contenant des millions d'instances d'instructions basées sur le mouvement. Nous démontrons empiriquement l'excellence de Being-H0 dans la génération de mouvements de main et le suivi d'instructions, ainsi que sa bonne évolutivité avec la taille des modèles et des données. Surtout, nous observons les gains attendus de Being-H0 dans la manipulation robotique réelle grâce à l'application du réglage par instruction physique. Plus de détails sont disponibles sur https://beingbeyond.github.io/Being-H0.
English
We introduce Being-H0, a dexterous Vision-Language-Action model (VLA) trained
on large-scale human videos. Existing VLAs struggle with complex manipulation
tasks requiring high dexterity and generalize poorly to novel scenarios and
tasks, primarily due to their reliance on synthetic data with significant
sim-to-real gaps or teleoperated demonstrations lacking scale and diversity. To
address this data bottleneck, we propose leveraging human hands as a foundation
manipulator, capitalizing on the rich dexterity and scalability present in web
data. Our approach centers on physical instruction tuning, a novel training
paradigm that combines large-scale VLA pretraining from human videos, physical
space alignment for 3D reasoning, and post-training adaptation for robotic
tasks. Additionally, we introduce a part-level motion tokenization method which
achieves millimeter-level reconstruction accuracy to model precise hand
trajectories for action learning. To support our proposed paradigm, we further
develop a comprehensive data curation pipeline that integrates heterogeneous
sources -- including motion capture, VR, and RGB-only videos -- into a
large-scale dataset with millions of motion-based instructional instances. We
empirically show the excellence of Being-H0 in hand motion generation and
instruction following, and it also scales well with model and data sizes.
Importantly, we observe the expected gains of Being-H0 in real-world robotic
manipulation as physical instruction tuning is applied. More details are
available at https://beingbeyond.github.io/Being-H0.