Planification avec raisonnement utilisant un modèle de monde vision-langage
Planning with Reasoning using Vision Language World Model
September 2, 2025
papers.authors: Delong Chen, Theo Moutakanni, Willy Chung, Yejin Bang, Ziwei Ji, Allen Bolourchi, Pascale Fung
cs.AI
papers.abstract
Une planification efficace nécessite des modèles du monde robustes, mais les modèles de haut niveau capables de comprendre et de raisonner sur des actions avec une abstraction sémantique et temporelle restent largement sous-développés. Nous présentons le Vision Language World Model (VLWM), un modèle de base entraîné pour la modélisation du monde basée sur le langage à partir de vidéos naturelles. Étant donné des observations visuelles, le VLWM infère d'abord les réalisations globales des objectifs, puis prédit une trajectoire composée d'actions entrelacées et de changements d'état du monde. Ces cibles sont extraites par un processus itératif de LLM Self-Refine conditionné sur des observations futures compressées représentées par un Arbre de Légendes. Le VLWM apprend à la fois une politique d'action et un modèle de dynamique, qui facilitent respectivement le décodage réactif des plans de type système-1 et la planification réflexive de type système-2 via la minimisation des coûts. Le coût évalue la distance sémantique entre les états futurs hypothétiques donnés par les simulations du VLWM et l'état objectif attendu, et est mesuré par un modèle critique que nous avons entraîné de manière auto-supervisée. Le VLWM atteint des performances de pointe en Planification Visuelle pour l'Assistance (VPA) à la fois sur les évaluations de référence et sur nos évaluations humaines proposées dans PlannerArena, où le système-2 améliore le score Elo de +27 % par rapport au système-1. Les modèles VLWM surpassent également les modèles de référence VLM sur les benchmarks RoboVQA et WorldPrediction.
English
Effective planning requires strong world models, but high-level world models
that can understand and reason about actions with semantic and temporal
abstraction remain largely underdeveloped. We introduce the Vision Language
World Model (VLWM), a foundation model trained for language-based world
modeling on natural videos. Given visual observations, the VLWM first infers
the overall goal achievements then predicts a trajectory composed of
interleaved actions and world state changes. Those targets are extracted by
iterative LLM Self-Refine conditioned on compressed future observations
represented by Tree of Captions. The VLWM learns both an action policy and a
dynamics model, which respectively facilitates reactive system-1 plan decoding
and reflective system-2 planning via cost minimization. The cost evaluates the
semantic distance between the hypothetical future states given by VLWM
roll-outs and the expected goal state, and is measured by a critic model that
we trained in a self-supervised manner. The VLWM achieves state-of-the-art
Visual Planning for Assistance (VPA) performance on both benchmark evaluations
and our proposed PlannerArena human evaluations, where system-2 improves the
Elo score by +27% upon system-1. The VLWM models also outperforms strong VLM
baselines on RoboVQA and WorldPrediction benchmark.