DreamDojo: Ein generalistisches Robot-World-Model aus groß angelegten menschlichen Videoaufnahmen

Zusammenfassung

Die Fähigkeit, die Ergebnisse von Handlungen in verschiedenen Umgebungen zu simulieren, wird die Entwicklung generalistischer Agenten im großen Maßstab revolutionieren. Die Modellierung dieser Weltdynamiken stellt jedoch besonders bei geschickten Robotikaufgaben erhebliche Herausforderungen dar, bedingt durch begrenzte Datenabdeckung und knappe Aktionslabels. Als Beitrag zu diesem Ziel stellen wir DreamDojo vor, ein fundamentales Weltmodell, das diverse Interaktionen und geschickte Steuerungen aus 44.000 Stunden egozentrischer menschlicher Videos erlernt. Unser Datengemisch repräsentiert den bisher größten Videodatensatz für das Vortraining von Weltmodellen und umfasst ein breites Spektrum alltäglicher Szenarien mit vielfältigen Objekten und Fähigkeiten. Um die Knappheit an Aktionslabels zu adressieren, führen wir kontinuierliche latente Aktionen als einheitliche Proxy-Handlungen ein, die den Transfer von Interaktionswissen aus ungelabelten Videos verbessern. Nach einem Nachtraining mit kleinskaligen Zielroboterdaten zeigt DreamDojo ein starkes Verständnis von Physik und präzise Aktionssteuerbarkeit. Wir entwickeln zudem eine Distillationspipeline, die DreamDojo auf eine Echtzeitgeschwindigkeit von 10,81 FPS beschleunigt und die Kontextkonsistenz weiter verbessert. Unsere Arbeit ermöglicht mehrere wichtige Anwendungen auf Basis generativer Weltmodelle, darunter Live-Teleoperation, Richtlinienbewertung und modellbasierte Planung. Eine systematische Evaluation auf mehreren anspruchsvollen Out-of-Distribution (OOD) Benchmarks bestätigt die Bedeutung unserer Methode für die Simulation von kontaktintensiven Aufgaben in offenen Welten und ebnet den Weg für universelle Roboter-Weltmodelle.

English

Being able to simulate the outcomes of actions in varied environments will revolutionize the development of generalist agents at scale. However, modeling these world dynamics, especially for dexterous robotics tasks, poses significant challenges due to limited data coverage and scarce action labels. As an endeavor towards this end, we introduce DreamDojo, a foundation world model that learns diverse interactions and dexterous controls from 44k hours of egocentric human videos. Our data mixture represents the largest video dataset to date for world model pretraining, spanning a wide range of daily scenarios with diverse objects and skills. To address the scarcity of action labels, we introduce continuous latent actions as unified proxy actions, enhancing interaction knowledge transfer from unlabeled videos. After post-training on small-scale target robot data, DreamDojo demonstrates a strong understanding of physics and precise action controllability. We also devise a distillation pipeline that accelerates DreamDojo to a real-time speed of 10.81 FPS and further improves context consistency. Our work enables several important applications based on generative world models, including live teleoperation, policy evaluation, and model-based planning. Systematic evaluation on multiple challenging out-of-distribution (OOD) benchmarks verifies the significance of our method for simulating open-world, contact-rich tasks, paving the way for general-purpose robot world models.

DreamDojo: Ein generalistisches Robot-World-Model aus groß angelegten menschlichen Videoaufnahmen

DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos

Zusammenfassung

Support