ChatPaper.aiChatPaper

Being-H0: Pretraining Visione-Linguaggio-Azione su Video Umani su Larga Scala

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

July 21, 2025
Autori: Hao Luo, Yicheng Feng, Wanpeng Zhang, Sipeng Zheng, Ye Wang, Haoqi Yuan, Jiazheng Liu, Chaoyi Xu, Qin Jin, Zongqing Lu
cs.AI

Abstract

Introduciamo Being-H0, un modello Visione-Linguaggio-Azione (VLA) abile addestrato su vasti dataset di video umani. Gli attuali modelli VLA faticano a gestire compiti di manipolazione complessi che richiedono alta destrezza e generalizzano male a scenari e compiti nuovi, principalmente a causa della loro dipendenza da dati sintetici con significativi gap sim-to-real o dimostrazioni teleoperate che mancano di scala e diversità. Per affrontare questo collo di bottiglia nei dati, proponiamo di sfruttare le mani umane come manipolatori di base, capitalizzando la ricca destrezza e scalabilità presenti nei dati web. Il nostro approccio si concentra sul physical instruction tuning, un nuovo paradigma di addestramento che combina il pretraining VLA su larga scala da video umani, l'allineamento nello spazio fisico per il ragionamento 3D e l'adattamento post-training per compiti robotici. Inoltre, introduciamo un metodo di tokenizzazione del moto a livello di parti che raggiunge una precisione di ricostruzione a livello millimetrico per modellare traiettorie precise delle mani per l'apprendimento delle azioni. Per supportare il nostro paradigma proposto, sviluppiamo ulteriormente una pipeline completa di curatela dei dati che integra fonti eterogenee — inclusi motion capture, realtà virtuale e video RGB-only — in un dataset su larga scala con milioni di istanze di istruzioni basate sul movimento. Dimostriamo empiricamente l'eccellenza di Being-H0 nella generazione del moto delle mani e nel seguire le istruzioni, e scala bene con le dimensioni del modello e dei dati. In modo significativo, osserviamo i guadagni attesi di Being-H0 nella manipolazione robotica nel mondo reale quando viene applicato il physical instruction tuning. Ulteriori dettagli sono disponibili su https://beingbeyond.github.io/Being-H0.
English
We introduce Being-H0, a dexterous Vision-Language-Action model (VLA) trained on large-scale human videos. Existing VLAs struggle with complex manipulation tasks requiring high dexterity and generalize poorly to novel scenarios and tasks, primarily due to their reliance on synthetic data with significant sim-to-real gaps or teleoperated demonstrations lacking scale and diversity. To address this data bottleneck, we propose leveraging human hands as a foundation manipulator, capitalizing on the rich dexterity and scalability present in web data. Our approach centers on physical instruction tuning, a novel training paradigm that combines large-scale VLA pretraining from human videos, physical space alignment for 3D reasoning, and post-training adaptation for robotic tasks. Additionally, we introduce a part-level motion tokenization method which achieves millimeter-level reconstruction accuracy to model precise hand trajectories for action learning. To support our proposed paradigm, we further develop a comprehensive data curation pipeline that integrates heterogeneous sources -- including motion capture, VR, and RGB-only videos -- into a large-scale dataset with millions of motion-based instructional instances. We empirically show the excellence of Being-H0 in hand motion generation and instruction following, and it also scales well with model and data sizes. Importantly, we observe the expected gains of Being-H0 in real-world robotic manipulation as physical instruction tuning is applied. More details are available at https://beingbeyond.github.io/Being-H0.
PDF331July 22, 2025