DINO-WM : Les Modèles Mondiaux sur des Caractéristiques Visuelles Pré-entraînées permettent la Planification sans Avoir été Enseignés
DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning
November 7, 2024
Auteurs: Gaoyue Zhou, Hengkai Pan, Yann LeCun, Lerrel Pinto
cs.AI
Résumé
La capacité de prédire les résultats futurs en fonction des actions de contrôle est fondamentale pour le raisonnement physique. Cependant, de tels modèles prédictifs, souvent appelés modèles du monde, se sont avérés difficiles à apprendre et sont généralement développés pour des solutions spécifiques à des tâches avec un apprentissage de politique en ligne. Nous soutenons que le véritable potentiel des modèles du monde réside dans leur capacité à raisonner et planifier à travers des problèmes divers en n'utilisant que des données passives. Concrètement, nous exigeons que les modèles du monde aient les trois propriétés suivantes : 1) être entraînables sur des trajectoires hors ligne pré-collectées, 2) soutenir l'optimisation du comportement au moment des tests, et 3) faciliter le raisonnement agnostique à la tâche. Pour réaliser cela, nous présentons DINO World Model (DINO-WM), une nouvelle méthode pour modéliser la dynamique visuelle sans reconstruire le monde visuel. DINO-WM exploite les caractéristiques spatiales des patchs pré-entraînées avec DINOv2, lui permettant d'apprendre à partir de trajectoires comportementales hors ligne en prédisant les caractéristiques des patchs futurs. Cette conception permet à DINO-WM d'atteindre des objectifs d'observation grâce à l'optimisation de séquences d'actions, facilitant la planification de comportements agnostiques à la tâche en traitant les caractéristiques des patchs d'objectif souhaitées comme cibles de prédiction. Nous évaluons DINO-WM dans divers domaines, notamment la navigation dans des labyrinthes, le poussage sur table et la manipulation de particules. Nos expériences démontrent que DINO-WM peut générer des solutions comportementales sans apprentissage à test sans faire appel à des démonstrations d'experts, à la modélisation des récompenses ou à des modèles inverses pré-appris. Notamment, DINO-WM présente de solides capacités de généralisation par rapport aux travaux précédents de pointe, s'adaptant à des familles de tâches diverses telles que des labyrinthes configurés de manière arbitraire, la manipulation de poussée avec des formes d'objets variées et des scénarios multi-particules.
English
The ability to predict future outcomes given control actions is fundamental
for physical reasoning. However, such predictive models, often called world
models, have proven challenging to learn and are typically developed for
task-specific solutions with online policy learning. We argue that the true
potential of world models lies in their ability to reason and plan across
diverse problems using only passive data. Concretely, we require world models
to have the following three properties: 1) be trainable on offline,
pre-collected trajectories, 2) support test-time behavior optimization, and 3)
facilitate task-agnostic reasoning. To realize this, we present DINO World
Model (DINO-WM), a new method to model visual dynamics without reconstructing
the visual world. DINO-WM leverages spatial patch features pre-trained with
DINOv2, enabling it to learn from offline behavioral trajectories by predicting
future patch features. This design allows DINO-WM to achieve observational
goals through action sequence optimization, facilitating task-agnostic behavior
planning by treating desired goal patch features as prediction targets. We
evaluate DINO-WM across various domains, including maze navigation, tabletop
pushing, and particle manipulation. Our experiments demonstrate that DINO-WM
can generate zero-shot behavioral solutions at test time without relying on
expert demonstrations, reward modeling, or pre-learned inverse models. Notably,
DINO-WM exhibits strong generalization capabilities compared to prior
state-of-the-art work, adapting to diverse task families such as arbitrarily
configured mazes, push manipulation with varied object shapes, and
multi-particle scenarios.Summary
AI-Generated Summary