Planung mit Reasoning unter Verwendung eines Vision-Language-Weltmodells
Planning with Reasoning using Vision Language World Model
September 2, 2025
papers.authors: Delong Chen, Theo Moutakanni, Willy Chung, Yejin Bang, Ziwei Ji, Allen Bolourchi, Pascale Fung
cs.AI
papers.abstract
Effektive Planung erfordert starke Weltmodelle, jedoch bleiben hochrangige Weltmodelle, die Aktionen mit semantischer und zeitlicher Abstraktion verstehen und darüber schlussfolgern können, weitgehend unterentwickelt. Wir stellen das Vision Language World Model (VLWM) vor, ein Foundation-Modell, das für die sprachbasierte Weltmodellierung anhand natürlicher Videos trainiert wurde. Bei visuellen Beobachtungen leitet das VLWM zunächst die Gesamtzielerreichung ab und prognostiziert dann eine Trajektorie, die aus verschachtelten Aktionen und Zustandsänderungen der Welt besteht. Diese Ziele werden durch iteratives LLM Self-Refine extrahiert, das auf komprimierte zukünftige Beobachtungen, dargestellt durch einen Tree of Captions, konditioniert ist. Das VLWM erlernt sowohl eine Aktionspolitik als auch ein Dynamikmodell, die jeweils das reaktive System-1-Plan-Decoding und das reflektierende System-2-Planning durch Kostenminimierung erleichtern. Die Kosten bewerten die semantische Distanz zwischen den hypothetischen zukünftigen Zuständen, die durch VLWM-Rollouts gegeben sind, und dem erwarteten Zielzustand, und werden durch ein Kritikmodell gemessen, das wir auf selbstüberwachte Weise trainiert haben. Das VLWM erreicht state-of-the-art Leistung bei der Visual Planning for Assistance (VPA) sowohl in Benchmark-Bewertungen als auch in unseren vorgeschlagenen PlannerArena-Human-Evaluierungen, wobei System-2 den Elo-Score um +27 % gegenüber System-1 verbessert. Die VLWM-Modelle übertreffen auch starke VLM-Baselines in den Benchmarks RoboVQA und WorldPrediction.
English
Effective planning requires strong world models, but high-level world models
that can understand and reason about actions with semantic and temporal
abstraction remain largely underdeveloped. We introduce the Vision Language
World Model (VLWM), a foundation model trained for language-based world
modeling on natural videos. Given visual observations, the VLWM first infers
the overall goal achievements then predicts a trajectory composed of
interleaved actions and world state changes. Those targets are extracted by
iterative LLM Self-Refine conditioned on compressed future observations
represented by Tree of Captions. The VLWM learns both an action policy and a
dynamics model, which respectively facilitates reactive system-1 plan decoding
and reflective system-2 planning via cost minimization. The cost evaluates the
semantic distance between the hypothetical future states given by VLWM
roll-outs and the expected goal state, and is measured by a critic model that
we trained in a self-supervised manner. The VLWM achieves state-of-the-art
Visual Planning for Assistance (VPA) performance on both benchmark evaluations
and our proposed PlannerArena human evaluations, where system-2 improves the
Elo score by +27% upon system-1. The VLWM models also outperforms strong VLM
baselines on RoboVQA and WorldPrediction benchmark.