DINO-WM: Wereldmodellen op vooraf getrainde visuele kenmerken stellen Zero-shot Planning mogelijk.
DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning
November 7, 2024
Auteurs: Gaoyue Zhou, Hengkai Pan, Yann LeCun, Lerrel Pinto
cs.AI
Samenvatting
Het vermogen om toekomstige uitkomsten te voorspellen gegeven controleacties is fundamenteel voor fysisch redeneren. Echter, dergelijke voorspellende modellen, vaak wereldmodellen genoemd, blijken moeilijk te leren te zijn en worden typisch ontwikkeld voor opgavespecifieke oplossingen met online beleidsleren. Wij betogen dat het ware potentieel van wereldmodellen ligt in hun vermogen om te redeneren en plannen over diverse problemen met enkel passieve data. Concreet vereisen we dat wereldmodellen de volgende drie eigenschappen hebben: 1) trainbaar zijn op offline, vooraf verzamelde trajecten, 2) ondersteuning bieden voor gedragsoptimalisatie op testtijd, en 3) taakagnostisch redeneren vergemakkelijken. Om dit te verwezenlijken, presenteren we DINO World Model (DINO-WM), een nieuwe methode om visuele dynamiek te modelleren zonder de visuele wereld te reconstrueren. DINO-WM maakt gebruik van ruimtelijke patchkenmerken die vooraf zijn getraind met DINOv2, waardoor het kan leren van offline gedragstrajecten door toekomstige patchkenmerken te voorspellen. Deze opzet stelt DINO-WM in staat om observationele doelen te bereiken door actiesequentie-optimalisatie, wat taakagnostisch gedragplannen vergemakkelijkt door gewenste doelpatchkenmerken als voorspellingsdoelen te behandelen. We evalueren DINO-WM over verschillende domeinen, waaronder doolhofnavigatie, tafelverplaatsing en deeltjesmanipulatie. Onze experimenten tonen aan dat DINO-WM nul-shot gedragsoplossingen kan genereren op testtijd zonder te vertrouwen op expertdemonstraties, beloningsmodellering of vooraf geleerde inverse modellen. Opmerkelijk vertoont DINO-WM sterke generalisatievermogens in vergelijking met eerder state-of-the-art werk, waarbij het zich aanpast aan diverse taakfamilies zoals willekeurig geconfigureerde doolhoven, duwmanipulatie met gevarieerde objectvormen, en multipartikel scenario's.
English
The ability to predict future outcomes given control actions is fundamental
for physical reasoning. However, such predictive models, often called world
models, have proven challenging to learn and are typically developed for
task-specific solutions with online policy learning. We argue that the true
potential of world models lies in their ability to reason and plan across
diverse problems using only passive data. Concretely, we require world models
to have the following three properties: 1) be trainable on offline,
pre-collected trajectories, 2) support test-time behavior optimization, and 3)
facilitate task-agnostic reasoning. To realize this, we present DINO World
Model (DINO-WM), a new method to model visual dynamics without reconstructing
the visual world. DINO-WM leverages spatial patch features pre-trained with
DINOv2, enabling it to learn from offline behavioral trajectories by predicting
future patch features. This design allows DINO-WM to achieve observational
goals through action sequence optimization, facilitating task-agnostic behavior
planning by treating desired goal patch features as prediction targets. We
evaluate DINO-WM across various domains, including maze navigation, tabletop
pushing, and particle manipulation. Our experiments demonstrate that DINO-WM
can generate zero-shot behavioral solutions at test time without relying on
expert demonstrations, reward modeling, or pre-learned inverse models. Notably,
DINO-WM exhibits strong generalization capabilities compared to prior
state-of-the-art work, adapting to diverse task families such as arbitrarily
configured mazes, push manipulation with varied object shapes, and
multi-particle scenarios.Summary
AI-Generated Summary