DINO-WM : Les Modèles Mondiaux sur des Caractéristiques Visuelles Pré-entraînées permettent la Planification sans Avoir été Enseignés

papers.abstract

La capacité de prédire les résultats futurs en fonction des actions de contrôle est fondamentale pour le raisonnement physique. Cependant, de tels modèles prédictifs, souvent appelés modèles du monde, se sont avérés difficiles à apprendre et sont généralement développés pour des solutions spécifiques à des tâches avec un apprentissage de politique en ligne. Nous soutenons que le véritable potentiel des modèles du monde réside dans leur capacité à raisonner et planifier à travers des problèmes divers en n'utilisant que des données passives. Concrètement, nous exigeons que les modèles du monde aient les trois propriétés suivantes : 1) être entraînables sur des trajectoires hors ligne pré-collectées, 2) soutenir l'optimisation du comportement au moment des tests, et 3) faciliter le raisonnement agnostique à la tâche. Pour réaliser cela, nous présentons DINO World Model (DINO-WM), une nouvelle méthode pour modéliser la dynamique visuelle sans reconstruire le monde visuel. DINO-WM exploite les caractéristiques spatiales des patchs pré-entraînées avec DINOv2, lui permettant d'apprendre à partir de trajectoires comportementales hors ligne en prédisant les caractéristiques des patchs futurs. Cette conception permet à DINO-WM d'atteindre des objectifs d'observation grâce à l'optimisation de séquences d'actions, facilitant la planification de comportements agnostiques à la tâche en traitant les caractéristiques des patchs d'objectif souhaitées comme cibles de prédiction. Nous évaluons DINO-WM dans divers domaines, notamment la navigation dans des labyrinthes, le poussage sur table et la manipulation de particules. Nos expériences démontrent que DINO-WM peut générer des solutions comportementales sans apprentissage à test sans faire appel à des démonstrations d'experts, à la modélisation des récompenses ou à des modèles inverses pré-appris. Notamment, DINO-WM présente de solides capacités de généralisation par rapport aux travaux précédents de pointe, s'adaptant à des familles de tâches diverses telles que des labyrinthes configurés de manière arbitraire, la manipulation de poussée avec des formes d'objets variées et des scénarios multi-particules.

English

The ability to predict future outcomes given control actions is fundamental for physical reasoning. However, such predictive models, often called world models, have proven challenging to learn and are typically developed for task-specific solutions with online policy learning. We argue that the true potential of world models lies in their ability to reason and plan across diverse problems using only passive data. Concretely, we require world models to have the following three properties: 1) be trainable on offline, pre-collected trajectories, 2) support test-time behavior optimization, and 3) facilitate task-agnostic reasoning. To realize this, we present DINO World Model (DINO-WM), a new method to model visual dynamics without reconstructing the visual world. DINO-WM leverages spatial patch features pre-trained with DINOv2, enabling it to learn from offline behavioral trajectories by predicting future patch features. This design allows DINO-WM to achieve observational goals through action sequence optimization, facilitating task-agnostic behavior planning by treating desired goal patch features as prediction targets. We evaluate DINO-WM across various domains, including maze navigation, tabletop pushing, and particle manipulation. Our experiments demonstrate that DINO-WM can generate zero-shot behavioral solutions at test time without relying on expert demonstrations, reward modeling, or pre-learned inverse models. Notably, DINO-WM exhibits strong generalization capabilities compared to prior state-of-the-art work, adapting to diverse task families such as arbitrarily configured mazes, push manipulation with varied object shapes, and multi-particle scenarios.

DINO-WM : Les Modèles Mondiaux sur des Caractéristiques Visuelles Pré-entraînées permettent la Planification sans Avoir été Enseignés

DINO-WM: World Models on Pre-trained Visual Features enable Zero-shot Planning

papers.abstract

Support