DreamDojo: Универсальная модель мира для роботов, обученная на масштабных видеозаписях действий человека

Аннотация

Возможность моделировать результаты действий в различных средах произведет революцию в разработке универсальных агентов в больших масштабах. Однако моделирование этих мировых динамик, особенно для задач, требующих ловких манипуляций в робототехнике, сопряжено со значительными трудностями из-за ограниченного охвата данных и дефицита меток действий. В качестве вклада в решение этой проблемы мы представляем DreamDojo — базовую мировую модель, которая обучается разнообразным взаимодействиям и точному управлению на основе 44 тысяч часов эгоцентричных видео с участием человека. Наш объединенный набор данных представляет собой крупнейший на сегодняшний день видеодатасет для предварительного обучения мировых моделей, охватывающий широкий спектр повседневных сценариев с разнообразными объектами и навыками. Для решения проблемы нехватки меток действий мы вводим непрерывные латентные действия в качестве унифицированных прокси-действий, улучшая передачу знаний о взаимодействии из немаркированных видео. После дообучения на небольшом целевом наборе данных по робототехнике DreamDojo демонстрирует глубокое понимание физики и точную управляемость действиями. Мы также разработали конвейер дистилляции, который ускоряет работу DreamDojo до скорости в реальном времени — 10.81 кадра в секунду — и дополнительно улучшает контекстную согласованность. Наша работа открывает несколько важных приложений на основе генеративных мировых моделей, включая телеуправление в реальном времени, оценку политик и планирование на основе моделей. Систематическая оценка на нескольких сложных бенчмарках с данными вне распределения подтверждает значимость нашего метода для моделирования задач, богатых контактами, в открытом мире, прокладывая путь к созданию универсальных мировых моделей для роботов.

English

Being able to simulate the outcomes of actions in varied environments will revolutionize the development of generalist agents at scale. However, modeling these world dynamics, especially for dexterous robotics tasks, poses significant challenges due to limited data coverage and scarce action labels. As an endeavor towards this end, we introduce DreamDojo, a foundation world model that learns diverse interactions and dexterous controls from 44k hours of egocentric human videos. Our data mixture represents the largest video dataset to date for world model pretraining, spanning a wide range of daily scenarios with diverse objects and skills. To address the scarcity of action labels, we introduce continuous latent actions as unified proxy actions, enhancing interaction knowledge transfer from unlabeled videos. After post-training on small-scale target robot data, DreamDojo demonstrates a strong understanding of physics and precise action controllability. We also devise a distillation pipeline that accelerates DreamDojo to a real-time speed of 10.81 FPS and further improves context consistency. Our work enables several important applications based on generative world models, including live teleoperation, policy evaluation, and model-based planning. Systematic evaluation on multiple challenging out-of-distribution (OOD) benchmarks verifies the significance of our method for simulating open-world, contact-rich tasks, paving the way for general-purpose robot world models.

DreamDojo: Универсальная модель мира для роботов, обученная на масштабных видеозаписях действий человека

DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

Аннотация

Support