ビジョン言語世界モデルを用いた推論による計画立案
Planning with Reasoning using Vision Language World Model
September 2, 2025
著者: Delong Chen, Theo Moutakanni, Willy Chung, Yejin Bang, Ziwei Ji, Allen Bolourchi, Pascale Fung
cs.AI
要旨
効果的な計画立案には強力な世界モデルが必要ですが、意味的および時間的な抽象化を伴う行動を理解し推論する高レベルの世界モデルは、依然として大きく未発展のままです。本論文では、自然映像に基づく言語ベースの世界モデリングのために訓練された基盤モデルであるVision Language World Model(VLWM)を紹介します。視覚的観察が与えられると、VLWMはまず全体的な目標達成を推論し、その後、交互に織り込まれた行動と世界状態の変化からなる軌跡を予測します。これらの目標は、Tree of Captionsとして表現された圧縮された未来の観察に基づいて、反復的なLLM Self-Refineによって抽出されます。VLWMは行動ポリシーとダイナミクスモデルの両方を学習し、それぞれ反応的なシステム1の計画デコードと、コスト最小化による反射的なシステム2の計画立案を促進します。コストは、VLWMのロールアウトによって与えられる仮想的な未来状態と期待される目標状態との間の意味的距離を評価し、自己教師あり方式で訓練された批評モデルによって測定されます。VLWMは、ベンチマーク評価と我々が提案するPlannerArena人間評価の両方において、Visual Planning for Assistance(VPA)の最新の性能を達成し、システム2はシステム1に対してEloスコアを+27%向上させます。また、VLWMモデルはRoboVQAおよびWorldPredictionベンチマークにおいて、強力なVLMベースラインを上回る性能を示します。
English
Effective planning requires strong world models, but high-level world models
that can understand and reason about actions with semantic and temporal
abstraction remain largely underdeveloped. We introduce the Vision Language
World Model (VLWM), a foundation model trained for language-based world
modeling on natural videos. Given visual observations, the VLWM first infers
the overall goal achievements then predicts a trajectory composed of
interleaved actions and world state changes. Those targets are extracted by
iterative LLM Self-Refine conditioned on compressed future observations
represented by Tree of Captions. The VLWM learns both an action policy and a
dynamics model, which respectively facilitates reactive system-1 plan decoding
and reflective system-2 planning via cost minimization. The cost evaluates the
semantic distance between the hypothetical future states given by VLWM
roll-outs and the expected goal state, and is measured by a critic model that
we trained in a self-supervised manner. The VLWM achieves state-of-the-art
Visual Planning for Assistance (VPA) performance on both benchmark evaluations
and our proposed PlannerArena human evaluations, where system-2 improves the
Elo score by +27% upon system-1. The VLWM models also outperforms strong VLM
baselines on RoboVQA and WorldPrediction benchmark.