Being-H0: Предварительное обучение "Видение-Язык-Действие" на основе крупномасштабных видеозаписей человеческой деятельности

Аннотация

Мы представляем Being-H0 — ловкую модель "Видение-Язык-Действие" (VLA), обученную на крупномасштабных видео с участием людей. Существующие VLA-модели испытывают трудности с выполнением сложных задач манипуляции, требующих высокой ловкости, и плохо обобщаются на новые сценарии и задачи, что в первую очередь связано с их зависимостью от синтетических данных с существенным разрывом между симуляцией и реальностью или от телеметрических демонстраций, ограниченных по масштабу и разнообразию. Чтобы преодолеть этот дефицит данных, мы предлагаем использовать человеческие руки в качестве базового манипулятора, опираясь на богатую ловкость и масштабируемость, представленные в веб-данных. Наш подход сосредоточен на физической настройке инструкций — новом парадигме обучения, которая сочетает крупномасштабное предварительное обучение VLA на основе человеческих видео, выравнивание физического пространства для 3D-рассуждений и пост-тренировочную адаптацию для роботизированных задач. Кроме того, мы представляем метод токенизации движений на уровне частей, который обеспечивает точность реконструкции на уровне миллиметров для моделирования точных траекторий рук при обучении действиям. Для поддержки нашей парадигмы мы также разработали комплексный конвейер обработки данных, который интегрирует разнородные источники — включая захват движения, VR и RGB-видео — в крупномасштабный набор данных с миллионами инструкций на основе движений. Мы эмпирически демонстрируем превосходство Being-H0 в генерации движений рук и выполнении инструкций, а также его хорошую масштабируемость с увеличением размера модели и данных. Важно отметить, что мы наблюдаем ожидаемые улучшения Being-H0 в реальных задачах роботизированной манипуляции при применении физической настройки инструкций. Подробности доступны по ссылке: https://beingbeyond.github.io/Being-H0.

English

We introduce Being-H0, a dexterous Vision-Language-Action model (VLA) trained on large-scale human videos. Existing VLAs struggle with complex manipulation tasks requiring high dexterity and generalize poorly to novel scenarios and tasks, primarily due to their reliance on synthetic data with significant sim-to-real gaps or teleoperated demonstrations lacking scale and diversity. To address this data bottleneck, we propose leveraging human hands as a foundation manipulator, capitalizing on the rich dexterity and scalability present in web data. Our approach centers on physical instruction tuning, a novel training paradigm that combines large-scale VLA pretraining from human videos, physical space alignment for 3D reasoning, and post-training adaptation for robotic tasks. Additionally, we introduce a part-level motion tokenization method which achieves millimeter-level reconstruction accuracy to model precise hand trajectories for action learning. To support our proposed paradigm, we further develop a comprehensive data curation pipeline that integrates heterogeneous sources -- including motion capture, VR, and RGB-only videos -- into a large-scale dataset with millions of motion-based instructional instances. We empirically show the excellence of Being-H0 in hand motion generation and instruction following, and it also scales well with model and data sizes. Importantly, we observe the expected gains of Being-H0 in real-world robotic manipulation as physical instruction tuning is applied. More details are available at https://beingbeyond.github.io/Being-H0.

Being-H0: Предварительное обучение "Видение-Язык-Действие" на основе крупномасштабных видеозаписей человеческой деятельности

Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos

Аннотация

Support