DINO-WM: Wereldmodellen op vooraf getrainde visuele kenmerken stellen Zero-shot Planning mogelijk.

Samenvatting

Het vermogen om toekomstige uitkomsten te voorspellen gegeven controleacties is fundamenteel voor fysisch redeneren. Echter, dergelijke voorspellende modellen, vaak wereldmodellen genoemd, blijken moeilijk te leren te zijn en worden typisch ontwikkeld voor opgavespecifieke oplossingen met online beleidsleren. Wij betogen dat het ware potentieel van wereldmodellen ligt in hun vermogen om te redeneren en plannen over diverse problemen met enkel passieve data. Concreet vereisen we dat wereldmodellen de volgende drie eigenschappen hebben: 1) trainbaar zijn op offline, vooraf verzamelde trajecten, 2) ondersteuning bieden voor gedragsoptimalisatie op testtijd, en 3) taakagnostisch redeneren vergemakkelijken. Om dit te verwezenlijken, presenteren we DINO World Model (DINO-WM), een nieuwe methode om visuele dynamiek te modelleren zonder de visuele wereld te reconstrueren. DINO-WM maakt gebruik van ruimtelijke patchkenmerken die vooraf zijn getraind met DINOv2, waardoor het kan leren van offline gedragstrajecten door toekomstige patchkenmerken te voorspellen. Deze opzet stelt DINO-WM in staat om observationele doelen te bereiken door actiesequentie-optimalisatie, wat taakagnostisch gedragplannen vergemakkelijkt door gewenste doelpatchkenmerken als voorspellingsdoelen te behandelen. We evalueren DINO-WM over verschillende domeinen, waaronder doolhofnavigatie, tafelverplaatsing en deeltjesmanipulatie. Onze experimenten tonen aan dat DINO-WM nul-shot gedragsoplossingen kan genereren op testtijd zonder te vertrouwen op expertdemonstraties, beloningsmodellering of vooraf geleerde inverse modellen. Opmerkelijk vertoont DINO-WM sterke generalisatievermogens in vergelijking met eerder state-of-the-art werk, waarbij het zich aanpast aan diverse taakfamilies zoals willekeurig geconfigureerde doolhoven, duwmanipulatie met gevarieerde objectvormen, en multipartikel scenario's.

English

The ability to predict future outcomes given control actions is fundamental for physical reasoning. However, such predictive models, often called world models, have proven challenging to learn and are typically developed for task-specific solutions with online policy learning. We argue that the true potential of world models lies in their ability to reason and plan across diverse problems using only passive data. Concretely, we require world models to have the following three properties: 1) be trainable on offline, pre-collected trajectories, 2) support test-time behavior optimization, and 3) facilitate task-agnostic reasoning. To realize this, we present DINO World Model (DINO-WM), a new method to model visual dynamics without reconstructing the visual world. DINO-WM leverages spatial patch features pre-trained with DINOv2, enabling it to learn from offline behavioral trajectories by predicting future patch features. This design allows DINO-WM to achieve observational goals through action sequence optimization, facilitating task-agnostic behavior planning by treating desired goal patch features as prediction targets. We evaluate DINO-WM across various domains, including maze navigation, tabletop pushing, and particle manipulation. Our experiments demonstrate that DINO-WM can generate zero-shot behavioral solutions at test time without relying on expert demonstrations, reward modeling, or pre-learned inverse models. Notably, DINO-WM exhibits strong generalization capabilities compared to prior state-of-the-art work, adapting to diverse task families such as arbitrarily configured mazes, push manipulation with varied object shapes, and multi-particle scenarios.

DINO-WM: Wereldmodellen op vooraf getrainde visuele kenmerken stellen Zero-shot Planning mogelijk.

DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

Samenvatting

Support