Ser-H0: Pretraining Visión-Lenguaje-Acción a partir de Vídeos Humanos a Gran Escala

Resumen

Presentamos Being-H0, un modelo diestro de Visión-Lenguaje-Acción (VLA) entrenado en videos humanos a gran escala. Los VLA existentes enfrentan dificultades con tareas de manipulación complejas que requieren alta destreza y generalizan pobremente a escenarios y tareas novedosas, principalmente debido a su dependencia de datos sintéticos con brechas significativas entre simulación y realidad o demostraciones teleoperadas que carecen de escala y diversidad. Para abordar este cuello de botella en los datos, proponemos aprovechar las manos humanas como un manipulador fundamental, capitalizando la rica destreza y escalabilidad presentes en los datos web. Nuestro enfoque se centra en el ajuste físico de instrucciones, un paradigma de entrenamiento novedoso que combina el preentrenamiento de VLA a gran escala a partir de videos humanos, la alineación del espacio físico para el razonamiento en 3D y la adaptación posterior al entrenamiento para tareas robóticas. Además, introducimos un método de tokenización de movimiento a nivel de partes que logra una precisión de reconstrucción a nivel milimétrico para modelar trayectorias precisas de las manos en el aprendizaje de acciones. Para respaldar nuestro paradigma propuesto, desarrollamos además una pipeline integral de curación de datos que integra fuentes heterogéneas —incluyendo captura de movimiento, realidad virtual y videos solo en RGB— en un conjunto de datos a gran escala con millones de instancias instructivas basadas en movimiento. Demostramos empíricamente la excelencia de Being-H0 en la generación de movimientos de manos y el seguimiento de instrucciones, y también escala bien con el tamaño del modelo y los datos. Es importante destacar que observamos las ganancias esperadas de Being-H0 en la manipulación robótica del mundo real a medida que se aplica el ajuste físico de instrucciones. Más detalles están disponibles en https://beingbeyond.github.io/Being-H0.

English

We introduce Being-H0, a dexterous Vision-Language-Action model (VLA) trained on large-scale human videos. Existing VLAs struggle with complex manipulation tasks requiring high dexterity and generalize poorly to novel scenarios and tasks, primarily due to their reliance on synthetic data with significant sim-to-real gaps or teleoperated demonstrations lacking scale and diversity. To address this data bottleneck, we propose leveraging human hands as a foundation manipulator, capitalizing on the rich dexterity and scalability present in web data. Our approach centers on physical instruction tuning, a novel training paradigm that combines large-scale VLA pretraining from human videos, physical space alignment for 3D reasoning, and post-training adaptation for robotic tasks. Additionally, we introduce a part-level motion tokenization method which achieves millimeter-level reconstruction accuracy to model precise hand trajectories for action learning. To support our proposed paradigm, we further develop a comprehensive data curation pipeline that integrates heterogeneous sources -- including motion capture, VR, and RGB-only videos -- into a large-scale dataset with millions of motion-based instructional instances. We empirically show the excellence of Being-H0 in hand motion generation and instruction following, and it also scales well with model and data sizes. Importantly, we observe the expected gains of Being-H0 in real-world robotic manipulation as physical instruction tuning is applied. More details are available at https://beingbeyond.github.io/Being-H0.

Ser-H0: Pretraining Visión-Lenguaje-Acción a partir de Vídeos Humanos a Gran Escala

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

Resumen

Support