Plannen met Redeneren met behulp van een Visueel-Taal Wereldmodel
Planning with Reasoning using Vision Language World Model
September 2, 2025
Auteurs: Delong Chen, Theo Moutakanni, Willy Chung, Yejin Bang, Ziwei Ji, Allen Bolourchi, Pascale Fung
cs.AI
Samenvatting
Effectief plannen vereist sterke wereldmodellen, maar hoogwaardige wereldmodellen
die acties kunnen begrijpen en redeneren met semantische en temporele
abstractie blijven grotendeels onderontwikkeld. We introduceren het Vision Language
World Model (VLWM), een foundation model getraind voor taalgebaseerd wereldmodelleren
op natuurlijke video's. Gegeven visuele observaties, inferreert het VLWM eerst
de algemene doelrealisaties en voorspelt vervolgens een traject bestaande uit
afgewisselde acties en wereldstatusveranderingen. Deze doelen worden geëxtraheerd
door iteratieve LLM Self-Refine, geconditioneerd op gecomprimeerde toekomstige observaties
gerepresenteerd door Tree of Captions. Het VLWM leert zowel een actiebeleid als een
dynamisch model, wat respectievelijk reactief systeem-1 plandecodering en reflectief
systeem-2 plannen via kostenminimalisatie mogelijk maakt. De kosten evalueren de
semantische afstand tussen de hypothetische toekomstige staten gegeven door VLWM
roll-outs en de verwachte doelstatus, en worden gemeten door een criticusmodel dat
we op een zelfgesuperviseerde manier hebben getraind. Het VLWM behaalt state-of-the-art
Visual Planning for Assistance (VPA) prestaties op zowel benchmarkevaluaties als onze
voorgestelde PlannerArena menselijke evaluaties, waar systeem-2 de Elo-score met +27%
verbetert ten opzichte van systeem-1. De VLWM-modellen overtreffen ook sterke VLM
baselines op de RoboVQA en WorldPrediction benchmark.
English
Effective planning requires strong world models, but high-level world models
that can understand and reason about actions with semantic and temporal
abstraction remain largely underdeveloped. We introduce the Vision Language
World Model (VLWM), a foundation model trained for language-based world
modeling on natural videos. Given visual observations, the VLWM first infers
the overall goal achievements then predicts a trajectory composed of
interleaved actions and world state changes. Those targets are extracted by
iterative LLM Self-Refine conditioned on compressed future observations
represented by Tree of Captions. The VLWM learns both an action policy and a
dynamics model, which respectively facilitates reactive system-1 plan decoding
and reflective system-2 planning via cost minimization. The cost evaluates the
semantic distance between the hypothetical future states given by VLWM
roll-outs and the expected goal state, and is measured by a critic model that
we trained in a self-supervised manner. The VLWM achieves state-of-the-art
Visual Planning for Assistance (VPA) performance on both benchmark evaluations
and our proposed PlannerArena human evaluations, where system-2 improves the
Elo score by +27% upon system-1. The VLWM models also outperforms strong VLM
baselines on RoboVQA and WorldPrediction benchmark.