ChatPaper.aiChatPaper

Planification avec raisonnement utilisant un modèle de monde vision-langage

Planning with Reasoning using Vision Language World Model

September 2, 2025
papers.authors: Delong Chen, Theo Moutakanni, Willy Chung, Yejin Bang, Ziwei Ji, Allen Bolourchi, Pascale Fung
cs.AI

papers.abstract

Une planification efficace nécessite des modèles du monde robustes, mais les modèles de haut niveau capables de comprendre et de raisonner sur des actions avec une abstraction sémantique et temporelle restent largement sous-développés. Nous présentons le Vision Language World Model (VLWM), un modèle de base entraîné pour la modélisation du monde basée sur le langage à partir de vidéos naturelles. Étant donné des observations visuelles, le VLWM infère d'abord les réalisations globales des objectifs, puis prédit une trajectoire composée d'actions entrelacées et de changements d'état du monde. Ces cibles sont extraites par un processus itératif de LLM Self-Refine conditionné sur des observations futures compressées représentées par un Arbre de Légendes. Le VLWM apprend à la fois une politique d'action et un modèle de dynamique, qui facilitent respectivement le décodage réactif des plans de type système-1 et la planification réflexive de type système-2 via la minimisation des coûts. Le coût évalue la distance sémantique entre les états futurs hypothétiques donnés par les simulations du VLWM et l'état objectif attendu, et est mesuré par un modèle critique que nous avons entraîné de manière auto-supervisée. Le VLWM atteint des performances de pointe en Planification Visuelle pour l'Assistance (VPA) à la fois sur les évaluations de référence et sur nos évaluations humaines proposées dans PlannerArena, où le système-2 améliore le score Elo de +27 % par rapport au système-1. Les modèles VLWM surpassent également les modèles de référence VLM sur les benchmarks RoboVQA et WorldPrediction.
English
Effective planning requires strong world models, but high-level world models that can understand and reason about actions with semantic and temporal abstraction remain largely underdeveloped. We introduce the Vision Language World Model (VLWM), a foundation model trained for language-based world modeling on natural videos. Given visual observations, the VLWM first infers the overall goal achievements then predicts a trajectory composed of interleaved actions and world state changes. Those targets are extracted by iterative LLM Self-Refine conditioned on compressed future observations represented by Tree of Captions. The VLWM learns both an action policy and a dynamics model, which respectively facilitates reactive system-1 plan decoding and reflective system-2 planning via cost minimization. The cost evaluates the semantic distance between the hypothetical future states given by VLWM roll-outs and the expected goal state, and is measured by a critic model that we trained in a self-supervised manner. The VLWM achieves state-of-the-art Visual Planning for Assistance (VPA) performance on both benchmark evaluations and our proposed PlannerArena human evaluations, where system-2 improves the Elo score by +27% upon system-1. The VLWM models also outperforms strong VLM baselines on RoboVQA and WorldPrediction benchmark.
PDF132September 4, 2025