Being-H0 : Prétraitement Vision-Langue-Action à partir de vidéos humaines à grande échelle

papers.abstract

Nous présentons Being-H0, un modèle vision-langage-action (VLA) dextre entraîné sur des vidéos humaines à grande échelle. Les VLAs existants peinent à accomplir des tâches de manipulation complexes nécessitant une dextérité élevée et généralisent mal à des scénarios et tâches nouveaux, principalement en raison de leur dépendance à des données synthétiques présentant d'importants écarts sim-to-real ou à des démonstrations téléopérées manquant d'échelle et de diversité. Pour résoudre ce goulot d'étranglement des données, nous proposons d'exploiter les mains humaines comme manipulateur de base, en capitalisant sur la riche dextérité et l'évolutivité présentes dans les données web. Notre approche repose sur le réglage par instruction physique, un nouveau paradigme d'entraînement qui combine un pré-entraînement VLA à grande échelle à partir de vidéos humaines, un alignement dans l'espace physique pour le raisonnement 3D, et une adaptation post-entraînement pour les tâches robotiques. De plus, nous introduisons une méthode de tokenisation du mouvement au niveau des parties, qui atteint une précision de reconstruction au millimètre pour modéliser des trajectoires de main précises dans l'apprentissage des actions. Pour soutenir ce paradigme, nous développons également un pipeline complet de curation de données qui intègre des sources hétérogènes -- incluant la capture de mouvement, la réalité virtuelle et des vidéos RGB uniquement -- dans un jeu de données à grande échelle contenant des millions d'instances d'instructions basées sur le mouvement. Nous démontrons empiriquement l'excellence de Being-H0 dans la génération de mouvements de main et le suivi d'instructions, ainsi que sa bonne évolutivité avec la taille des modèles et des données. Surtout, nous observons les gains attendus de Being-H0 dans la manipulation robotique réelle grâce à l'application du réglage par instruction physique. Plus de détails sont disponibles sur https://beingbeyond.github.io/Being-H0.

English

We introduce Being-H0, a dexterous Vision-Language-Action model (VLA) trained on large-scale human videos. Existing VLAs struggle with complex manipulation tasks requiring high dexterity and generalize poorly to novel scenarios and tasks, primarily due to their reliance on synthetic data with significant sim-to-real gaps or teleoperated demonstrations lacking scale and diversity. To address this data bottleneck, we propose leveraging human hands as a foundation manipulator, capitalizing on the rich dexterity and scalability present in web data. Our approach centers on physical instruction tuning, a novel training paradigm that combines large-scale VLA pretraining from human videos, physical space alignment for 3D reasoning, and post-training adaptation for robotic tasks. Additionally, we introduce a part-level motion tokenization method which achieves millimeter-level reconstruction accuracy to model precise hand trajectories for action learning. To support our proposed paradigm, we further develop a comprehensive data curation pipeline that integrates heterogeneous sources -- including motion capture, VR, and RGB-only videos -- into a large-scale dataset with millions of motion-based instructional instances. We empirically show the excellence of Being-H0 in hand motion generation and instruction following, and it also scales well with model and data sizes. Importantly, we observe the expected gains of Being-H0 in real-world robotic manipulation as physical instruction tuning is applied. More details are available at https://beingbeyond.github.io/Being-H0.

Being-H0 : Prétraitement Vision-Langue-Action à partir de vidéos humaines à grande échelle

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

papers.abstract

Support