DreamDojo: Um Modelo de Mundo Robótico Generalista a partir de Vídeos Humanos em Larga Escala

Resumo

A capacidade de simular os resultados de ações em ambientes variados revolucionará o desenvolvimento de agentes generalistas em larga escala. No entanto, modelar essas dinâmicas do mundo, especialmente para tarefas de robótica hábil, apresenta desafios significativos devido à cobertura limitada de dados e à escassez de rótulos de ação. Como um esforço nesse sentido, apresentamos o DreamDojo, um modelo de mundo de base que aprende interações diversas e controles hábeis a partir de 44 mil horas de vídeos humanos egocêntricos. Nossa mistura de dados representa o maior conjunto de dados de vídeo até o momento para pré-treinamento de modelos de mundo, abrangendo uma ampla gama de cenários diários com objetos e habilidades diversos. Para lidar com a escassez de rótulos de ação, introduzimos ações latentes contínuas como ações proxy unificadas, aprimorando a transferência de conhecimento de interação a partir de vídeos não rotulados. Após o pós-treinamento em dados de robôs-alvo de pequena escala, o DreamDojo demonstra uma forte compreensão da física e uma controlabilidade de ação precisa. Também concebemos um pipeline de destilação que acelera o DreamDojo para uma velocidade em tempo real de 10,81 FPS e ainda melhora a consistência contextual. Nosso trabalho possibilita várias aplicações importantes baseadas em modelos de mundo generativos, incluindo teleoperação ao vivo, avaliação de políticas e planejamento baseado em modelo. A avaliação sistemática em múltiplos benchmarks desafiadores fora da distribuição (OOD) verifica a significância do nosso método para simular tarefas de mundo aberto e ricas em contato, pavimentando o caminho para modelos de mundo de robôs de propósito geral.

English

Being able to simulate the outcomes of actions in varied environments will revolutionize the development of generalist agents at scale. However, modeling these world dynamics, especially for dexterous robotics tasks, poses significant challenges due to limited data coverage and scarce action labels. As an endeavor towards this end, we introduce DreamDojo, a foundation world model that learns diverse interactions and dexterous controls from 44k hours of egocentric human videos. Our data mixture represents the largest video dataset to date for world model pretraining, spanning a wide range of daily scenarios with diverse objects and skills. To address the scarcity of action labels, we introduce continuous latent actions as unified proxy actions, enhancing interaction knowledge transfer from unlabeled videos. After post-training on small-scale target robot data, DreamDojo demonstrates a strong understanding of physics and precise action controllability. We also devise a distillation pipeline that accelerates DreamDojo to a real-time speed of 10.81 FPS and further improves context consistency. Our work enables several important applications based on generative world models, including live teleoperation, policy evaluation, and model-based planning. Systematic evaluation on multiple challenging out-of-distribution (OOD) benchmarks verifies the significance of our method for simulating open-world, contact-rich tasks, paving the way for general-purpose robot world models.

DreamDojo: Um Modelo de Mundo Robótico Generalista a partir de Vídeos Humanos em Larga Escala

DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

Resumo

Support