ChatPaper.aiChatPaper

DINO-WM: Modelli del Mondo su Caratteristiche Visuali Pre-allenate abilitano la Pianificazione a Zero-shot

DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

November 7, 2024
Autori: Gaoyue Zhou, Hengkai Pan, Yann LeCun, Lerrel Pinto
cs.AI

Abstract

La capacità di prevedere risultati futuri date azioni di controllo è fondamentale per il ragionamento fisico. Tuttavia, tali modelli predittivi, spesso chiamati modelli del mondo, si sono dimostrati difficili da apprendere e sono tipicamente sviluppati per soluzioni specifiche del compito con apprendimento della politica online. Sosteniamo che il vero potenziale dei modelli del mondo risieda nella loro capacità di ragionare e pianificare su problemi diversi utilizzando solo dati passivi. Concretamente, richiediamo che i modelli del mondo abbiano le seguenti tre proprietà: 1) essere addestrabili su traiettorie offline pre-raccolte, 2) supportare l'ottimizzazione del comportamento durante il test e 3) facilitare il ragionamento agnostico rispetto al compito. Per realizzare ciò, presentiamo DINO World Model (DINO-WM), un nuovo metodo per modellare la dinamica visiva senza ricostruire il mondo visivo. DINO-WM sfrutta le caratteristiche spaziali a patch pre-addestrate con DINOv2, consentendogli di apprendere da traiettorie comportamentali offline prevedendo le future caratteristiche delle patch. Questo design permette a DINO-WM di raggiungere obiettivi osservazionali attraverso l'ottimizzazione della sequenza di azioni, facilitando la pianificazione del comportamento agnostica rispetto al compito trattando le caratteristiche delle patch desiderate come obiettivi di previsione. Valutiamo DINO-WM in vari domini, tra cui la navigazione in labirinto, il push sul tavolo e la manipolazione di particelle. I nostri esperimenti dimostrano che DINO-WM può generare soluzioni comportamentali zero-shot durante il test senza fare affidamento su dimostrazioni di esperti, modellizzazione del reward o modelli inversi pre-appresi. In particolare, DINO-WM mostra forti capacità di generalizzazione rispetto ai lavori precedenti all'avanguardia, adattandosi a diverse famiglie di compiti come labirinti configurati arbitrariamente, manipolazione push con forme di oggetti varie e scenari multi-particella.
English
The ability to predict future outcomes given control actions is fundamental for physical reasoning. However, such predictive models, often called world models, have proven challenging to learn and are typically developed for task-specific solutions with online policy learning. We argue that the true potential of world models lies in their ability to reason and plan across diverse problems using only passive data. Concretely, we require world models to have the following three properties: 1) be trainable on offline, pre-collected trajectories, 2) support test-time behavior optimization, and 3) facilitate task-agnostic reasoning. To realize this, we present DINO World Model (DINO-WM), a new method to model visual dynamics without reconstructing the visual world. DINO-WM leverages spatial patch features pre-trained with DINOv2, enabling it to learn from offline behavioral trajectories by predicting future patch features. This design allows DINO-WM to achieve observational goals through action sequence optimization, facilitating task-agnostic behavior planning by treating desired goal patch features as prediction targets. We evaluate DINO-WM across various domains, including maze navigation, tabletop pushing, and particle manipulation. Our experiments demonstrate that DINO-WM can generate zero-shot behavioral solutions at test time without relying on expert demonstrations, reward modeling, or pre-learned inverse models. Notably, DINO-WM exhibits strong generalization capabilities compared to prior state-of-the-art work, adapting to diverse task families such as arbitrarily configured mazes, push manipulation with varied object shapes, and multi-particle scenarios.

Summary

AI-Generated Summary

PDF132February 3, 2025