비전 언어 세계 모델을 활용한 추론 기반 계획
Planning with Reasoning using Vision Language World Model
September 2, 2025
저자: Delong Chen, Theo Moutakanni, Willy Chung, Yejin Bang, Ziwei Ji, Allen Bolourchi, Pascale Fung
cs.AI
초록
효과적인 계획 수립은 강력한 세계 모델을 필요로 하지만, 의미적 및 시간적 추상화를 통해 행동을 이해하고 추론할 수 있는 고수준의 세계 모델은 여전히 크게 미흡한 상태입니다. 우리는 자연 영상 기반의 언어적 세계 모델링을 위해 훈련된 기초 모델인 Vision Language World Model(VLWM)을 소개합니다. 시각적 관측이 주어지면, VLWM은 먼저 전반적인 목표 달성 여부를 추론한 다음, 교차된 행동과 세계 상태 변화로 구성된 궤적을 예측합니다. 이러한 목표는 Tree of Captions로 표현된 압축된 미래 관측을 조건으로 하는 반복적인 LLM Self-Refine을 통해 추출됩니다. VLWM은 반응적인 시스템-1 계획 디코딩과 반성적인 시스템-2 계획 수립을 각각 용이하게 하는 행동 정책과 역학 모델을 모두 학습합니다. 비용은 VLWM 롤아웃에 의해 주어진 가상의 미래 상태와 기대 목표 상태 간의 의미적 거리를 평가하며, 이는 우리가 자기 지도 방식으로 훈련한 비평 모델에 의해 측정됩니다. VLWM은 벤치마크 평가와 우리가 제안한 PlannerArena 인간 평가 모두에서 최첨단 Visual Planning for Assistance(VPA) 성능을 달성하며, 시스템-2는 시스템-1 대비 Elo 점수를 +27% 향상시킵니다. 또한 VLWM 모델은 RoboVQA 및 WorldPrediction 벤치마크에서 강력한 VLM 베이스라인을 능가합니다.
English
Effective planning requires strong world models, but high-level world models
that can understand and reason about actions with semantic and temporal
abstraction remain largely underdeveloped. We introduce the Vision Language
World Model (VLWM), a foundation model trained for language-based world
modeling on natural videos. Given visual observations, the VLWM first infers
the overall goal achievements then predicts a trajectory composed of
interleaved actions and world state changes. Those targets are extracted by
iterative LLM Self-Refine conditioned on compressed future observations
represented by Tree of Captions. The VLWM learns both an action policy and a
dynamics model, which respectively facilitates reactive system-1 plan decoding
and reflective system-2 planning via cost minimization. The cost evaluates the
semantic distance between the hypothetical future states given by VLWM
roll-outs and the expected goal state, and is measured by a critic model that
we trained in a self-supervised manner. The VLWM achieves state-of-the-art
Visual Planning for Assistance (VPA) performance on both benchmark evaluations
and our proposed PlannerArena human evaluations, where system-2 improves the
Elo score by +27% upon system-1. The VLWM models also outperforms strong VLM
baselines on RoboVQA and WorldPrediction benchmark.