Ser-H0: Pretraining Visión-Lenguaje-Acción a partir de Vídeos Humanos a Gran Escala
Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos
July 21, 2025
Autores: Hao Luo, Yicheng Feng, Wanpeng Zhang, Sipeng Zheng, Ye Wang, Haoqi Yuan, Jiazheng Liu, Chaoyi Xu, Qin Jin, Zongqing Lu
cs.AI
Resumen
Presentamos Being-H0, un modelo diestro de Visión-Lenguaje-Acción (VLA) entrenado en videos humanos a gran escala. Los VLA existentes enfrentan dificultades con tareas de manipulación complejas que requieren alta destreza y generalizan pobremente a escenarios y tareas novedosas, principalmente debido a su dependencia de datos sintéticos con brechas significativas entre simulación y realidad o demostraciones teleoperadas que carecen de escala y diversidad. Para abordar este cuello de botella en los datos, proponemos aprovechar las manos humanas como un manipulador fundamental, capitalizando la rica destreza y escalabilidad presentes en los datos web. Nuestro enfoque se centra en el ajuste físico de instrucciones, un paradigma de entrenamiento novedoso que combina el preentrenamiento de VLA a gran escala a partir de videos humanos, la alineación del espacio físico para el razonamiento en 3D y la adaptación posterior al entrenamiento para tareas robóticas. Además, introducimos un método de tokenización de movimiento a nivel de partes que logra una precisión de reconstrucción a nivel milimétrico para modelar trayectorias precisas de las manos en el aprendizaje de acciones. Para respaldar nuestro paradigma propuesto, desarrollamos además una pipeline integral de curación de datos que integra fuentes heterogéneas —incluyendo captura de movimiento, realidad virtual y videos solo en RGB— en un conjunto de datos a gran escala con millones de instancias instructivas basadas en movimiento. Demostramos empíricamente la excelencia de Being-H0 en la generación de movimientos de manos y el seguimiento de instrucciones, y también escala bien con el tamaño del modelo y los datos. Es importante destacar que observamos las ganancias esperadas de Being-H0 en la manipulación robótica del mundo real a medida que se aplica el ajuste físico de instrucciones. Más detalles están disponibles en https://beingbeyond.github.io/Being-H0.
English
We introduce Being-H0, a dexterous Vision-Language-Action model (VLA) trained
on large-scale human videos. Existing VLAs struggle with complex manipulation
tasks requiring high dexterity and generalize poorly to novel scenarios and
tasks, primarily due to their reliance on synthetic data with significant
sim-to-real gaps or teleoperated demonstrations lacking scale and diversity. To
address this data bottleneck, we propose leveraging human hands as a foundation
manipulator, capitalizing on the rich dexterity and scalability present in web
data. Our approach centers on physical instruction tuning, a novel training
paradigm that combines large-scale VLA pretraining from human videos, physical
space alignment for 3D reasoning, and post-training adaptation for robotic
tasks. Additionally, we introduce a part-level motion tokenization method which
achieves millimeter-level reconstruction accuracy to model precise hand
trajectories for action learning. To support our proposed paradigm, we further
develop a comprehensive data curation pipeline that integrates heterogeneous
sources -- including motion capture, VR, and RGB-only videos -- into a
large-scale dataset with millions of motion-based instructional instances. We
empirically show the excellence of Being-H0 in hand motion generation and
instruction following, and it also scales well with model and data sizes.
Importantly, we observe the expected gains of Being-H0 in real-world robotic
manipulation as physical instruction tuning is applied. More details are
available at https://beingbeyond.github.io/Being-H0.