ChatPaper.aiChatPaper

Pianificazione con Ragionamento utilizzando un Modello del Mondo Visione-Linguaggio

Planning with Reasoning using Vision Language World Model

September 2, 2025
Autori: Delong Chen, Theo Moutakanni, Willy Chung, Yejin Bang, Ziwei Ji, Allen Bolourchi, Pascale Fung
cs.AI

Abstract

Una pianificazione efficace richiede modelli del mondo robusti, ma i modelli del mondo di alto livello in grado di comprendere e ragionare sulle azioni con astrazione semantica e temporale rimangono in gran parte sottosviluppati. Introduciamo il Vision Language World Model (VLWM), un modello di base addestrato per la modellazione del mondo basata sul linguaggio su video naturali. Dato un'osservazione visiva, il VLWM inferisce prima il raggiungimento complessivo degli obiettivi, quindi predice una traiettoria composta da azioni intercalate e cambiamenti di stato del mondo. Questi obiettivi vengono estratti tramite un processo iterativo di Self-Refine di LLM condizionato su osservazioni future compresse rappresentate da un Albero di Didascalie. Il VLWM apprende sia una politica di azione che un modello di dinamica, che facilitano rispettivamente la decodifica reattiva del piano di sistema-1 e la pianificazione riflessiva di sistema-2 tramite la minimizzazione dei costi. Il costo valuta la distanza semantica tra gli stati futuri ipotetici forniti dalle simulazioni del VLWM e lo stato obiettivo atteso, ed è misurato da un modello critico che abbiamo addestrato in modo auto-supervisionato. Il VLWM raggiunge prestazioni all'avanguardia nella Pianificazione Visiva per l'Assistenza (VPA) sia nelle valutazioni benchmark che nelle nostre valutazioni umane proposte in PlannerArena, dove il sistema-2 migliora il punteggio Elo del +27% rispetto al sistema-1. I modelli VLWM superano anche i forti baseline VLM nei benchmark RoboVQA e WorldPrediction.
English
Effective planning requires strong world models, but high-level world models that can understand and reason about actions with semantic and temporal abstraction remain largely underdeveloped. We introduce the Vision Language World Model (VLWM), a foundation model trained for language-based world modeling on natural videos. Given visual observations, the VLWM first infers the overall goal achievements then predicts a trajectory composed of interleaved actions and world state changes. Those targets are extracted by iterative LLM Self-Refine conditioned on compressed future observations represented by Tree of Captions. The VLWM learns both an action policy and a dynamics model, which respectively facilitates reactive system-1 plan decoding and reflective system-2 planning via cost minimization. The cost evaluates the semantic distance between the hypothetical future states given by VLWM roll-outs and the expected goal state, and is measured by a critic model that we trained in a self-supervised manner. The VLWM achieves state-of-the-art Visual Planning for Assistance (VPA) performance on both benchmark evaluations and our proposed PlannerArena human evaluations, where system-2 improves the Elo score by +27% upon system-1. The VLWM models also outperforms strong VLM baselines on RoboVQA and WorldPrediction benchmark.
PDF223September 4, 2025