Planificación con Razonamiento utilizando un Modelo de Mundo de Lenguaje Visual
Planning with Reasoning using Vision Language World Model
September 2, 2025
Autores: Delong Chen, Theo Moutakanni, Willy Chung, Yejin Bang, Ziwei Ji, Allen Bolourchi, Pascale Fung
cs.AI
Resumen
La planificación efectiva requiere modelos sólidos del mundo, pero los modelos de alto nivel que pueden comprender y razonar sobre acciones con abstracción semántica y temporal siguen en gran medida subdesarrollados. Presentamos el Modelo de Mundo de Lenguaje Visual (VLWM, por sus siglas en inglés), un modelo base entrenado para el modelado del mundo basado en lenguaje en videos naturales. Dadas observaciones visuales, el VLWM primero infiere los logros generales del objetivo y luego predice una trayectoria compuesta por acciones intercaladas y cambios en el estado del mundo. Estos objetivos se extraen mediante un proceso iterativo de Autorefinamiento de LLM condicionado en observaciones futuras comprimidas representadas por un Árbol de Subtítulos. El VLWM aprende tanto una política de acciones como un modelo de dinámica, lo que facilita respectivamente la decodificación reactiva de planes del sistema 1 y la planificación reflexiva del sistema 2 mediante la minimización de costos. El costo evalúa la distancia semántica entre los estados futuros hipotéticos proporcionados por las simulaciones del VLWM y el estado objetivo esperado, y se mide mediante un modelo crítico que entrenamos de manera autosupervisada. El VLWM logra un rendimiento de vanguardia en Planificación Visual para Asistencia (VPA) tanto en evaluaciones de referencia como en nuestras evaluaciones humanas propuestas en PlannerArena, donde el sistema 2 mejora la puntuación Elo en un +27% respecto al sistema 1. Los modelos VLWM también superan a los sólidos modelos de referencia VLM en los benchmarks de RoboVQA y Predicción del Mundo.
English
Effective planning requires strong world models, but high-level world models
that can understand and reason about actions with semantic and temporal
abstraction remain largely underdeveloped. We introduce the Vision Language
World Model (VLWM), a foundation model trained for language-based world
modeling on natural videos. Given visual observations, the VLWM first infers
the overall goal achievements then predicts a trajectory composed of
interleaved actions and world state changes. Those targets are extracted by
iterative LLM Self-Refine conditioned on compressed future observations
represented by Tree of Captions. The VLWM learns both an action policy and a
dynamics model, which respectively facilitates reactive system-1 plan decoding
and reflective system-2 planning via cost minimization. The cost evaluates the
semantic distance between the hypothetical future states given by VLWM
roll-outs and the expected goal state, and is measured by a critic model that
we trained in a self-supervised manner. The VLWM achieves state-of-the-art
Visual Planning for Assistance (VPA) performance on both benchmark evaluations
and our proposed PlannerArena human evaluations, where system-2 improves the
Elo score by +27% upon system-1. The VLWM models also outperforms strong VLM
baselines on RoboVQA and WorldPrediction benchmark.