DreamDojo: Un Modelo Mundial Generalista para Robots a partir de Grandes Volúmenes de Vídeos Humanos

Resumen

Poder simular los resultados de acciones en entornos variados revolucionará el desarrollo de agentes generalistas a gran escala. Sin embargo, modelar estas dinámicas del mundo, especialmente para tareas de robótica diestra, plantea desafíos significativos debido a la cobertura limitada de datos y la escasez de etiquetas de acción. Como un esfuerzo hacia este fin, presentamos DreamDojo, un modelo del mundo fundacional que aprende interacciones diversas y controles diestros a partir de 44 mil horas de videos humanos egocéntricos. Nuestra mezcla de datos representa el conjunto de datos de video más grande hasta la fecha para el preentrenamiento de modelos del mundo, abarcando una amplia gama de escenarios cotidianos con diversos objetos y habilidades. Para abordar la escasez de etiquetas de acción, introducimos acciones latentes continuas como acciones proxy unificadas, mejorando la transferencia de conocimiento de interacción desde videos sin etiquetar. Después del post-entrenamiento en datos de robots objetivo a pequeña escala, DreamDojo demuestra una sólida comprensión de la física y una precisión de control de acciones precisa. También diseñamos una pipeline de destilación que acelera DreamDojo a una velocidad en tiempo real de 10.81 FPS y mejora aún más la consistencia contextual. Nuestro trabajo permite varias aplicaciones importantes basadas en modelos del mundo generativos, incluyendo teleoperación en vivo, evaluación de políticas y planificación basada en modelos. La evaluación sistemática en múltiples benchmarks desafiantes de fuera de distribución (OOD) verifica la importancia de nuestro método para simular tareas de mundo abierto y ricas en contacto, allanando el camino para modelos del mundo de robots de propósito general.

English

Being able to simulate the outcomes of actions in varied environments will revolutionize the development of generalist agents at scale. However, modeling these world dynamics, especially for dexterous robotics tasks, poses significant challenges due to limited data coverage and scarce action labels. As an endeavor towards this end, we introduce DreamDojo, a foundation world model that learns diverse interactions and dexterous controls from 44k hours of egocentric human videos. Our data mixture represents the largest video dataset to date for world model pretraining, spanning a wide range of daily scenarios with diverse objects and skills. To address the scarcity of action labels, we introduce continuous latent actions as unified proxy actions, enhancing interaction knowledge transfer from unlabeled videos. After post-training on small-scale target robot data, DreamDojo demonstrates a strong understanding of physics and precise action controllability. We also devise a distillation pipeline that accelerates DreamDojo to a real-time speed of 10.81 FPS and further improves context consistency. Our work enables several important applications based on generative world models, including live teleoperation, policy evaluation, and model-based planning. Systematic evaluation on multiple challenging out-of-distribution (OOD) benchmarks verifies the significance of our method for simulating open-world, contact-rich tasks, paving the way for general-purpose robot world models.