DreamDojo: Een Algemene Wereldmodel voor Robots Gebaseerd op Grootschalige Menselijke Video's

Samenvatting

Het kunnen simuleren van actie-uitkomsten in uiteenlopende omgevingen zal de ontwikkeling van generalistische agents op grote schaal revolutioneren. Het modelleren van deze werelddynamieken vormt echter een aanzienlijke uitdaging, vooral voor behendige robotica-taken, vanwege beperkte datadekking en schaarse actielabels. Als stap in deze richting introduceren we DreamDojo, een fundamenteel wereldmodel dat diverse interacties en behendige besturing leert uit 44.000 uur egocentrische menselijke video's. Onze datamix vertegenwoordigt de grootste videodataset tot nu toe voor wereldmodel-pre-training, met een breed scala aan dagelijkse scenarioën met diverse objecten en vaardigheden. Om het gebrek aan actielabels aan te pakken, introduceren we continue latente acties als uniforme proxy-acties, waardoor kennisoverdracht over interacties uit ongelabelde video's wordt verbeterd. Na nabewerking op kleinschalige doelrobotgegevens toont DreamDojo een sterk begrip van natuurkunde en precieze actiebestuurbaarheid. We ontwikkelden ook een distillatiepijplijn die DreamDojo versnelt naar een real-time snelheid van 10,81 FPS en de contextconsistentie verder verbetert. Ons werk maakt verschillende belangrijke toepassingen mogelijk op basis van generatieve wereldmodellen, waaronder live teleoperatie, beleidsevaluatie en modelgebaseerde planning. Systematische evaluatie op meerdere uitdagende out-of-distribution (OOD) benchmarks bevestigt de betekenis van onze methode voor het simuleren van open-wereld, contactrijke taken, waarmee de weg wordt geëffend voor algemene robotwereldmodellen.

English

Being able to simulate the outcomes of actions in varied environments will revolutionize the development of generalist agents at scale. However, modeling these world dynamics, especially for dexterous robotics tasks, poses significant challenges due to limited data coverage and scarce action labels. As an endeavor towards this end, we introduce DreamDojo, a foundation world model that learns diverse interactions and dexterous controls from 44k hours of egocentric human videos. Our data mixture represents the largest video dataset to date for world model pretraining, spanning a wide range of daily scenarios with diverse objects and skills. To address the scarcity of action labels, we introduce continuous latent actions as unified proxy actions, enhancing interaction knowledge transfer from unlabeled videos. After post-training on small-scale target robot data, DreamDojo demonstrates a strong understanding of physics and precise action controllability. We also devise a distillation pipeline that accelerates DreamDojo to a real-time speed of 10.81 FPS and further improves context consistency. Our work enables several important applications based on generative world models, including live teleoperation, policy evaluation, and model-based planning. Systematic evaluation on multiple challenging out-of-distribution (OOD) benchmarks verifies the significance of our method for simulating open-world, contact-rich tasks, paving the way for general-purpose robot world models.

DreamDojo: Een Algemene Wereldmodel voor Robots Gebaseerd op Grootschalige Menselijke Video's

DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

Samenvatting

Support