DreamDojo : Un modèle de monde robotique généraliste à partir de vidéos humaines à grande échelle

Résumé

La capacité de simuler les résultats d'actions dans des environnements variés révolutionnera le développement d'agents généralistes à grande échelle. Cependant, la modélisation de ces dynamiques du monde, en particulier pour les tâches de robotique dextre, présente des défis significatifs en raison d'une couverture de données limitée et d'une rareté des étiquettes d'action. Dans cette optique, nous présentons DreamDojo, un modèle du monde de base qui apprend des interactions diverses et des commandes dextres à partir de 44 000 heures de vidéos humaines égocentriques. Notre mélange de données constitue le plus grand ensemble de vidéos à ce jour pour le pré-entraînement de modèles du monde, couvrant un large éventail de scénarios quotidiens avec des objets et des compétences variés. Pour pallier la rareté des étiquettes d'action, nous introduisons des actions latentes continues comme actions proxy unifiées, améliorant le transfert de connaissances interactionnelles à partir de vidéos non étiquetées. Après un post-entraînement sur des données robotiques cibles à petite échelle, DreamDojo démontre une compréhension solide de la physique et une contrôlabilité d'action précise. Nous concevons également un pipeline de distillation qui accélère DreamDojo à une vitesse en temps réel de 10,81 IPS et améliore encore la cohérence contextuelle. Notre travail permet plusieurs applications importantes basées sur des modèles du monde génératifs, incluant la téléopération en direct, l'évaluation de politiques et la planification basée sur le modèle. Une évaluation systématique sur plusieurs benchmarks difficiles hors distribution (OOD) vérifie l'importance de notre méthode pour simuler des tâches riches en contacts dans un monde ouvert, ouvrant la voie à des modèles du monde robotiques à usage général.

English

Being able to simulate the outcomes of actions in varied environments will revolutionize the development of generalist agents at scale. However, modeling these world dynamics, especially for dexterous robotics tasks, poses significant challenges due to limited data coverage and scarce action labels. As an endeavor towards this end, we introduce DreamDojo, a foundation world model that learns diverse interactions and dexterous controls from 44k hours of egocentric human videos. Our data mixture represents the largest video dataset to date for world model pretraining, spanning a wide range of daily scenarios with diverse objects and skills. To address the scarcity of action labels, we introduce continuous latent actions as unified proxy actions, enhancing interaction knowledge transfer from unlabeled videos. After post-training on small-scale target robot data, DreamDojo demonstrates a strong understanding of physics and precise action controllability. We also devise a distillation pipeline that accelerates DreamDojo to a real-time speed of 10.81 FPS and further improves context consistency. Our work enables several important applications based on generative world models, including live teleoperation, policy evaluation, and model-based planning. Systematic evaluation on multiple challenging out-of-distribution (OOD) benchmarks verifies the significance of our method for simulating open-world, contact-rich tasks, paving the way for general-purpose robot world models.

DreamDojo : Un modèle de monde robotique généraliste à partir de vidéos humaines à grande échelle

DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

Résumé

Support