DINO-WM: Weltmodelle auf vorab trainierten visuellen Merkmalen ermöglichen Null-Schuss-Planung.
DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning
November 7, 2024
Autoren: Gaoyue Zhou, Hengkai Pan, Yann LeCun, Lerrel Pinto
cs.AI
Zusammenfassung
Die Fähigkeit, zukünftige Ergebnisse basierend auf Steuerungsmaßnahmen vorherzusagen, ist grundlegend für das physikalische Denken. Allerdings haben sich solche Vorhersagemodelle, oft als Weltmodelle bezeichnet, als schwierig zu erlernen erwiesen und werden typischerweise für aufgabenspezifische Lösungen mit Online-Policy-Lernen entwickelt. Wir argumentieren, dass das wahre Potenzial von Weltmodellen in ihrer Fähigkeit liegt, über verschiedene Probleme hinweg zu denken und zu planen, indem sie nur passive Daten verwenden. Konkret benötigen wir, dass Weltmodelle die folgenden drei Eigenschaften aufweisen: 1) trainierbar auf offline vorgesammelten Trajektorien, 2) Unterstützung der Verhaltensoptimierung zur Testzeit und 3) Förderung einer aufgabenagnostischen Denkweise. Um dies zu verwirklichen, präsentieren wir DINO World Model (DINO-WM), eine neue Methode zur Modellierung visueller Dynamik ohne Rekonstruktion der visuellen Welt. DINO-WM nutzt räumliche Patch-Merkmale, die mit DINOv2 vorab trainiert wurden, und ermöglicht es ihm, aus offline Verhaltens-Trajektorien zu lernen, indem er zukünftige Patch-Merkmale vorhersagt. Dieses Design ermöglicht es DINO-WM, Beobachtungsziele durch die Optimierung von Aktionssequenzen zu erreichen, wodurch eine aufgabenagnostische Verhaltensplanung erleichtert wird, indem gewünschte Ziel-Patch-Merkmale als Vorhersageziele behandelt werden. Wir evaluieren DINO-WM in verschiedenen Bereichen, einschließlich Irrgarten-Navigation, Tisch-Pushen und Partikelmanipulation. Unsere Experimente zeigen, dass DINO-WM zur Testzeit Null-Schuss-Verhaltenslösungen generieren kann, ohne auf Expertenvorführungen, Belohnungsmodellierung oder vorab erlernte inverse Modelle angewiesen zu sein. Insbesondere zeigt DINO-WM im Vergleich zu früheren State-of-the-Art-Arbeiten starke Verallgemeinerungsfähigkeiten, indem es sich an verschiedene Aufgabenfamilien wie beliebig konfigurierte Irrgärten, Push-Manipulation mit unterschiedlichen Objektformen und Szenarien mit mehreren Partikeln anpasst.
English
The ability to predict future outcomes given control actions is fundamental
for physical reasoning. However, such predictive models, often called world
models, have proven challenging to learn and are typically developed for
task-specific solutions with online policy learning. We argue that the true
potential of world models lies in their ability to reason and plan across
diverse problems using only passive data. Concretely, we require world models
to have the following three properties: 1) be trainable on offline,
pre-collected trajectories, 2) support test-time behavior optimization, and 3)
facilitate task-agnostic reasoning. To realize this, we present DINO World
Model (DINO-WM), a new method to model visual dynamics without reconstructing
the visual world. DINO-WM leverages spatial patch features pre-trained with
DINOv2, enabling it to learn from offline behavioral trajectories by predicting
future patch features. This design allows DINO-WM to achieve observational
goals through action sequence optimization, facilitating task-agnostic behavior
planning by treating desired goal patch features as prediction targets. We
evaluate DINO-WM across various domains, including maze navigation, tabletop
pushing, and particle manipulation. Our experiments demonstrate that DINO-WM
can generate zero-shot behavioral solutions at test time without relying on
expert demonstrations, reward modeling, or pre-learned inverse models. Notably,
DINO-WM exhibits strong generalization capabilities compared to prior
state-of-the-art work, adapting to diverse task families such as arbitrarily
configured mazes, push manipulation with varied object shapes, and
multi-particle scenarios.Summary
AI-Generated Summary