DreamDojo: Un Modello Mondiale Generalista per Robot da Video Umani su Larga Scala

Abstract

La capacità di simulare i risultati delle azioni in ambienti variabili rivoluzionerà lo sviluppo di agenti generalisti su larga scala. Tuttavia, modellare queste dinamiche mondiali, specialmente per compiti di robotica destra, presenta sfide significative a causa della copertura dati limitata e della scarsità di etichette azionali. Come tentativo in questa direzione, presentiamo DreamDojo, un modello mondiale fondazionale che apprende interazioni diversificate e controlli destri da 44mila ore di video egocentrici umani. La nostra miscela di dati rappresenta il più ampio dataset video finora disponibile per il pre-addestramento di modelli mondiali, coprendo un'ampia gamma di scenari quotidiani con oggetti e abilità diversificati. Per affrontare la carenza di etichette azionali, introduciamo azioni latenti continue come azioni proxy unificate, migliorando il trasferimento di conoscenze interazionali da video non etichettati. Dopo l'addestramento supplementare su dati robotici target su piccola scala, DreamDojo dimostra una solida comprensione della fisica e una precisa controllabilità azionale. Abbiamo inoltre ideato una pipeline di distillazione che accelera DreamDojo a una velocità in tempo reale di 10,81 FPS e migliora ulteriormente la coerenza contestuale. Il nostro lavoro abilita diverse applicazioni importanti basate su modelli mondiali generativi, inclusi teleoperazione in tempo reale, valutazione delle politiche e pianificazione basata su modelli. La valutazione sistematica su molteplici benchmark impegnativi fuori distribuzione (OOD) verifica il significato del nostro metodo per simulare compiti aperti al mondo e ricchi di contatti, aprendo la strada a modelli mondiali robotici per scopi generali.

English

Being able to simulate the outcomes of actions in varied environments will revolutionize the development of generalist agents at scale. However, modeling these world dynamics, especially for dexterous robotics tasks, poses significant challenges due to limited data coverage and scarce action labels. As an endeavor towards this end, we introduce DreamDojo, a foundation world model that learns diverse interactions and dexterous controls from 44k hours of egocentric human videos. Our data mixture represents the largest video dataset to date for world model pretraining, spanning a wide range of daily scenarios with diverse objects and skills. To address the scarcity of action labels, we introduce continuous latent actions as unified proxy actions, enhancing interaction knowledge transfer from unlabeled videos. After post-training on small-scale target robot data, DreamDojo demonstrates a strong understanding of physics and precise action controllability. We also devise a distillation pipeline that accelerates DreamDojo to a real-time speed of 10.81 FPS and further improves context consistency. Our work enables several important applications based on generative world models, including live teleoperation, policy evaluation, and model-based planning. Systematic evaluation on multiple challenging out-of-distribution (OOD) benchmarks verifies the significance of our method for simulating open-world, contact-rich tasks, paving the way for general-purpose robot world models.

DreamDojo: Un Modello Mondiale Generalista per Robot da Video Umani su Larga Scala

DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

Abstract

Support