ChatPaper.aiChatPaper

Планирование с использованием модели мира, основанной на рассуждениях и визуально-языковых данных

Planning with Reasoning using Vision Language World Model

September 2, 2025
Авторы: Delong Chen, Theo Moutakanni, Willy Chung, Yejin Bang, Ziwei Ji, Allen Bolourchi, Pascale Fung
cs.AI

Аннотация

Эффективное планирование требует надежных моделей мира, однако высокоуровневые модели мира, способные понимать и рассуждать о действиях с использованием семантической и временной абстракции, остаются в значительной степени недоразвитыми. Мы представляем Vision Language World Model (VLWM) — базовую модель, обученную для моделирования мира на основе языка на естественных видеозаписях. Получив визуальные наблюдения, VLWM сначала выводит общие достижения цели, а затем прогнозирует траекторию, состоящую из чередующихся действий и изменений состояния мира. Эти цели извлекаются с помощью итеративного метода LLM Self-Refine, основанного на сжатых будущих наблюдениях, представленных в виде Дерева подписей. VLWM изучает как политику действий, так и модель динамики, что соответственно способствует декодированию реактивных планов системы-1 и рефлексивному планированию системы-2 через минимизацию затрат. Затраты оценивают семантическое расстояние между гипотетическими будущими состояниями, полученными в результате прогонов VLWM, и ожидаемым целевым состоянием, и измеряются с помощью модели-критика, обученной нами в самообучаемом режиме. VLWM демонстрирует наилучшие результаты в области визуального планирования для помощи (VPA) как на эталонных оценках, так и на наших предложенных человеческих оценках PlannerArena, где система-2 улучшает показатель Elo на +27% по сравнению с системой-1. Модели VLWM также превосходят сильные базовые линии VLM на тестах RoboVQA и WorldPrediction.
English
Effective planning requires strong world models, but high-level world models that can understand and reason about actions with semantic and temporal abstraction remain largely underdeveloped. We introduce the Vision Language World Model (VLWM), a foundation model trained for language-based world modeling on natural videos. Given visual observations, the VLWM first infers the overall goal achievements then predicts a trajectory composed of interleaved actions and world state changes. Those targets are extracted by iterative LLM Self-Refine conditioned on compressed future observations represented by Tree of Captions. The VLWM learns both an action policy and a dynamics model, which respectively facilitates reactive system-1 plan decoding and reflective system-2 planning via cost minimization. The cost evaluates the semantic distance between the hypothetical future states given by VLWM roll-outs and the expected goal state, and is measured by a critic model that we trained in a self-supervised manner. The VLWM achieves state-of-the-art Visual Planning for Assistance (VPA) performance on both benchmark evaluations and our proposed PlannerArena human evaluations, where system-2 improves the Elo score by +27% upon system-1. The VLWM models also outperforms strong VLM baselines on RoboVQA and WorldPrediction benchmark.
PDF132September 4, 2025