ChatPaper.aiChatPaper

Being-H0: Vision-Sprache-Handlungs-Vorverarbeitung auf Basis groß angelegter menschlicher Videos

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

July 21, 2025
papers.authors: Hao Luo, Yicheng Feng, Wanpeng Zhang, Sipeng Zheng, Ye Wang, Haoqi Yuan, Jiazheng Liu, Chaoyi Xu, Qin Jin, Zongqing Lu
cs.AI

papers.abstract

Wir stellen Being-H0 vor, ein geschicktes Vision-Language-Action-Modell (VLA), das auf groß angelegten menschlichen Videos trainiert wurde. Bestehende VLAs haben Schwierigkeiten mit komplexen Manipulationsaufgaben, die hohe Geschicklichkeit erfordern, und generalisieren schlecht auf neue Szenarien und Aufgaben, hauptsächlich aufgrund ihrer Abhängigkeit von synthetischen Daten mit erheblichen Sim-to-Real-Lücken oder teleoperierten Demonstrationen, denen es an Umfang und Vielfalt mangelt. Um diesen Datenengpass zu überwinden, schlagen wir vor, die menschliche Hand als grundlegenden Manipulator zu nutzen und die reiche Geschicklichkeit und Skalierbarkeit in Webdaten auszunutzen. Unser Ansatz konzentriert sich auf das physikalische Instruction Tuning, ein neuartiges Trainingsparadigma, das groß angelegtes VLA-Pretraining aus menschlichen Videos, physikalische Raumausrichtung für 3D-Argumentation und Post-Training-Anpassung für robotische Aufgaben kombiniert. Zusätzlich führen wir eine Methode zur Tokenisierung von Bewegungen auf Teilebene ein, die eine Rekonstruktionsgenauigkeit auf Millimeter-Niveau erreicht, um präzise Handtrajektorien für das Aktionslernen zu modellieren. Um unser vorgeschlagenes Paradigma zu unterstützen, entwickeln wir weiterhin eine umfassende Datenkuratierungspipeline, die heterogene Quellen – einschließlich Motion Capture, VR und RGB-Videos – in einen groß angelegten Datensatz mit Millionen von bewegungsbasierten Instruktionsinstanzen integriert. Wir zeigen empirisch die Exzellenz von Being-H0 in der Handbewegungsgenerierung und Instruktionsbefolgung, und es skaliert auch gut mit Modell- und Datengrößen. Wichtig ist, dass wir die erwarteten Gewinne von Being-H0 in der realen robotischen Manipulation beobachten, wenn physikalisches Instruction Tuning angewendet wird. Weitere Details sind verfügbar unter https://beingbeyond.github.io/Being-H0.
English
We introduce Being-H0, a dexterous Vision-Language-Action model (VLA) trained on large-scale human videos. Existing VLAs struggle with complex manipulation tasks requiring high dexterity and generalize poorly to novel scenarios and tasks, primarily due to their reliance on synthetic data with significant sim-to-real gaps or teleoperated demonstrations lacking scale and diversity. To address this data bottleneck, we propose leveraging human hands as a foundation manipulator, capitalizing on the rich dexterity and scalability present in web data. Our approach centers on physical instruction tuning, a novel training paradigm that combines large-scale VLA pretraining from human videos, physical space alignment for 3D reasoning, and post-training adaptation for robotic tasks. Additionally, we introduce a part-level motion tokenization method which achieves millimeter-level reconstruction accuracy to model precise hand trajectories for action learning. To support our proposed paradigm, we further develop a comprehensive data curation pipeline that integrates heterogeneous sources -- including motion capture, VR, and RGB-only videos -- into a large-scale dataset with millions of motion-based instructional instances. We empirically show the excellence of Being-H0 in hand motion generation and instruction following, and it also scales well with model and data sizes. Importantly, we observe the expected gains of Being-H0 in real-world robotic manipulation as physical instruction tuning is applied. More details are available at https://beingbeyond.github.io/Being-H0.
PDF291July 22, 2025