Planejamento com Raciocínio utilizando Modelo de Mundo de Linguagem Visual
Planning with Reasoning using Vision Language World Model
September 2, 2025
Autores: Delong Chen, Theo Moutakanni, Willy Chung, Yejin Bang, Ziwei Ji, Allen Bolourchi, Pascale Fung
cs.AI
Resumo
O planejamento eficaz requer modelos de mundo robustos, mas modelos de mundo de alto nível que possam compreender e raciocinar sobre ações com abstração semântica e temporal permanecem amplamente subdesenvolvidos. Apresentamos o Vision Language World Model (VLWM), um modelo de base treinado para modelagem de mundo baseada em linguagem em vídeos naturais. Dadas observações visuais, o VLWM primeiro infere as conquistas gerais do objetivo e, em seguida, prevê uma trajetória composta por ações intercaladas e mudanças no estado do mundo. Esses alvos são extraídos por meio de Auto-Refinamento Iterativo de LLM condicionado a observações futuras compactadas representadas por uma Árvore de Legendas. O VLWM aprende tanto uma política de ação quanto um modelo de dinâmica, que, respectivamente, facilitam a decodificação reativa de planos do sistema-1 e o planejamento reflexivo do sistema-2 via minimização de custo. O custo avalia a distância semântica entre os estados futuros hipotéticos fornecidos pelas simulações do VLWM e o estado objetivo esperado, e é medido por um modelo crítico que treinamos de forma autossupervisionada. O VLWM alcança desempenho de última geração em Planejamento Visual para Assistência (VPA) tanto em avaliações de referência quanto em nossas avaliações humanas propostas no PlannerArena, onde o sistema-2 melhora a pontuação Elo em +27% em relação ao sistema-1. Os modelos VLWM também superam fortes baselines de VLM nos benchmarks RoboVQA e WorldPrediction.
English
Effective planning requires strong world models, but high-level world models
that can understand and reason about actions with semantic and temporal
abstraction remain largely underdeveloped. We introduce the Vision Language
World Model (VLWM), a foundation model trained for language-based world
modeling on natural videos. Given visual observations, the VLWM first infers
the overall goal achievements then predicts a trajectory composed of
interleaved actions and world state changes. Those targets are extracted by
iterative LLM Self-Refine conditioned on compressed future observations
represented by Tree of Captions. The VLWM learns both an action policy and a
dynamics model, which respectively facilitates reactive system-1 plan decoding
and reflective system-2 planning via cost minimization. The cost evaluates the
semantic distance between the hypothetical future states given by VLWM
roll-outs and the expected goal state, and is measured by a critic model that
we trained in a self-supervised manner. The VLWM achieves state-of-the-art
Visual Planning for Assistance (VPA) performance on both benchmark evaluations
and our proposed PlannerArena human evaluations, where system-2 improves the
Elo score by +27% upon system-1. The VLWM models also outperforms strong VLM
baselines on RoboVQA and WorldPrediction benchmark.