Being-H0: Предварительное обучение "Видение-Язык-Действие" на основе крупномасштабных видеозаписей человеческой деятельности
Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos
July 21, 2025
Авторы: Hao Luo, Yicheng Feng, Wanpeng Zhang, Sipeng Zheng, Ye Wang, Haoqi Yuan, Jiazheng Liu, Chaoyi Xu, Qin Jin, Zongqing Lu
cs.AI
Аннотация
Мы представляем Being-H0 — ловкую модель "Видение-Язык-Действие" (VLA), обученную на крупномасштабных видео с участием людей. Существующие VLA-модели испытывают трудности с выполнением сложных задач манипуляции, требующих высокой ловкости, и плохо обобщаются на новые сценарии и задачи, что в первую очередь связано с их зависимостью от синтетических данных с существенным разрывом между симуляцией и реальностью или от телеметрических демонстраций, ограниченных по масштабу и разнообразию. Чтобы преодолеть этот дефицит данных, мы предлагаем использовать человеческие руки в качестве базового манипулятора, опираясь на богатую ловкость и масштабируемость, представленные в веб-данных. Наш подход сосредоточен на физической настройке инструкций — новом парадигме обучения, которая сочетает крупномасштабное предварительное обучение VLA на основе человеческих видео, выравнивание физического пространства для 3D-рассуждений и пост-тренировочную адаптацию для роботизированных задач. Кроме того, мы представляем метод токенизации движений на уровне частей, который обеспечивает точность реконструкции на уровне миллиметров для моделирования точных траекторий рук при обучении действиям. Для поддержки нашей парадигмы мы также разработали комплексный конвейер обработки данных, который интегрирует разнородные источники — включая захват движения, VR и RGB-видео — в крупномасштабный набор данных с миллионами инструкций на основе движений. Мы эмпирически демонстрируем превосходство Being-H0 в генерации движений рук и выполнении инструкций, а также его хорошую масштабируемость с увеличением размера модели и данных. Важно отметить, что мы наблюдаем ожидаемые улучшения Being-H0 в реальных задачах роботизированной манипуляции при применении физической настройки инструкций. Подробности доступны по ссылке: https://beingbeyond.github.io/Being-H0.
English
We introduce Being-H0, a dexterous Vision-Language-Action model (VLA) trained
on large-scale human videos. Existing VLAs struggle with complex manipulation
tasks requiring high dexterity and generalize poorly to novel scenarios and
tasks, primarily due to their reliance on synthetic data with significant
sim-to-real gaps or teleoperated demonstrations lacking scale and diversity. To
address this data bottleneck, we propose leveraging human hands as a foundation
manipulator, capitalizing on the rich dexterity and scalability present in web
data. Our approach centers on physical instruction tuning, a novel training
paradigm that combines large-scale VLA pretraining from human videos, physical
space alignment for 3D reasoning, and post-training adaptation for robotic
tasks. Additionally, we introduce a part-level motion tokenization method which
achieves millimeter-level reconstruction accuracy to model precise hand
trajectories for action learning. To support our proposed paradigm, we further
develop a comprehensive data curation pipeline that integrates heterogeneous
sources -- including motion capture, VR, and RGB-only videos -- into a
large-scale dataset with millions of motion-based instructional instances. We
empirically show the excellence of Being-H0 in hand motion generation and
instruction following, and it also scales well with model and data sizes.
Importantly, we observe the expected gains of Being-H0 in real-world robotic
manipulation as physical instruction tuning is applied. More details are
available at https://beingbeyond.github.io/Being-H0.