Being-H0: Vision-Taal-Actie Vooraf Trainen op Grote Schaal Menselijke Video's
Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos
July 21, 2025
Auteurs: Hao Luo, Yicheng Feng, Wanpeng Zhang, Sipeng Zheng, Ye Wang, Haoqi Yuan, Jiazheng Liu, Chaoyi Xu, Qin Jin, Zongqing Lu
cs.AI
Samenvatting
We introduceren Being-H0, een behendig Vision-Language-Action model (VLA) getraind op grootschalige menselijke video’s. Bestaande VLA’s hebben moeite met complexe manipulatietaken die een hoge behendigheid vereisen en generaliseren slecht naar nieuwe scenario’s en taken, voornamelijk vanwege hun afhankelijkheid van synthetische data met aanzienlijke sim-to-real verschillen of teleoperatieve demonstraties die schaal en diversiteit missen. Om dit dataknelpunt aan te pakken, stellen we voor om menselijke handen als fundamentele manipulator te benutten, waarbij we gebruikmaken van de rijke behendigheid en schaalbaarheid die aanwezig zijn in webdata. Onze aanpak richt zich op fysieke instructie-afstemming, een nieuw trainingsparadigma dat grootschalige VLA-voorafgaande training van menselijke video’s combineert, fysieke ruimte-uitlijning voor 3D-redenering, en post-training aanpassing voor robotica-taken. Daarnaast introduceren we een methode voor tokenisatie van bewegingen op deel-niveau, die een millimeter-nauwkeurige reconstructie bereikt om precieze handtrajectoria voor actieleren te modelleren. Om ons voorgestelde paradigma te ondersteunen, ontwikkelen we verder een uitgebreide datacuratiepijplijn die heterogene bronnen integreert – inclusief motion capture, VR en RGB-video’s – in een grootschalige dataset met miljoenen op beweging gebaseerde instructiegevallen. We tonen empirisch de uitmuntendheid van Being-H0 aan in het genereren van handbewegingen en het volgen van instructies, en het schaalt ook goed met model- en datagroottes. Belangrijk is dat we de verwachte verbeteringen van Being-H0 observeren in real-world robotmanipulatie wanneer fysieke instructie-afstemming wordt toegepast. Meer details zijn beschikbaar op https://beingbeyond.github.io/Being-H0.
English
We introduce Being-H0, a dexterous Vision-Language-Action model (VLA) trained
on large-scale human videos. Existing VLAs struggle with complex manipulation
tasks requiring high dexterity and generalize poorly to novel scenarios and
tasks, primarily due to their reliance on synthetic data with significant
sim-to-real gaps or teleoperated demonstrations lacking scale and diversity. To
address this data bottleneck, we propose leveraging human hands as a foundation
manipulator, capitalizing on the rich dexterity and scalability present in web
data. Our approach centers on physical instruction tuning, a novel training
paradigm that combines large-scale VLA pretraining from human videos, physical
space alignment for 3D reasoning, and post-training adaptation for robotic
tasks. Additionally, we introduce a part-level motion tokenization method which
achieves millimeter-level reconstruction accuracy to model precise hand
trajectories for action learning. To support our proposed paradigm, we further
develop a comprehensive data curation pipeline that integrates heterogeneous
sources -- including motion capture, VR, and RGB-only videos -- into a
large-scale dataset with millions of motion-based instructional instances. We
empirically show the excellence of Being-H0 in hand motion generation and
instruction following, and it also scales well with model and data sizes.
Importantly, we observe the expected gains of Being-H0 in real-world robotic
manipulation as physical instruction tuning is applied. More details are
available at https://beingbeyond.github.io/Being-H0.