I Modelli Visione-Linguaggio Possiedono Modelli Interni del Mondo? Verso una Valutazione Atomica
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation
June 27, 2025
Autori: Qiyue Gao, Xinyu Pi, Kevin Liu, Junrong Chen, Ruolan Yang, Xinqi Huang, Xinyu Fang, Lu Sun, Gautham Kishore, Bo Ai, Stone Tao, Mengyang Liu, Jiaxi Yang, Chao-Jung Lai, Chuanyang Jin, Jiannan Xiang, Benhao Huang, Zeming Chen, David Danks, Hao Su, Tianmin Shu, Ziqiao Ma, Lianhui Qin, Zhiting Hu
cs.AI
Abstract
I modelli interni del mondo (World Models, WMs) consentono agli agenti di comprendere lo stato del mondo e prevedere le transizioni, fungendo da base per un ragionamento deliberativo avanzato. I recenti modelli visione-linguaggio (Vision-Language Models, VLMs) di grandi dimensioni, come OpenAI o3, GPT-4o e Gemini, mostrano potenziale come WMs a scopo generale. Sebbene gli studi più recenti abbiano valutato e evidenziato limitazioni in capacità specifiche come la comprensione visiva, manca ancora una valutazione sistematica delle abilità fondamentali dei VLMs come WMs. Attingendo dalla psicologia comparata e dalle scienze cognitive, proponiamo un framework in due fasi che valuta la Percezione (visiva, spaziale, temporale, quantitativa e del movimento) e la Previsione (simulazione meccanicistica, inferenza transitiva, inferenza composizionale) per fornire una valutazione atomica dei VLMs come WMs. Guidati da questo framework, introduciamo WM-ABench, un benchmark su larga scala che comprende 23 dimensioni di valutazione granulari in 6 ambienti simulati diversi con simulazioni controfattuali controllate. Attraverso 660 esperimenti su 15 dei più recenti VLMs commerciali e open-source, scopriamo che questi modelli presentano limitazioni sorprendenti nelle abilità di base di modellazione del mondo. Ad esempio, quasi tutti i modelli ottengono un'accuratezza vicina al caso casuale nel distinguere le traiettorie di movimento. Inoltre, mancano di una comprensione disaccoppiata: ad esempio, alcuni modelli tendono a credere che gli oggetti blu si muovano più velocemente di quelli verdi. Risultati e analisi più approfonditi rivelano significativi divari tra i VLMs e la modellazione del mondo a livello umano.
English
Internal world models (WMs) enable agents to understand the world's state and
predict transitions, serving as the basis for advanced deliberative reasoning.
Recent large Vision-Language Models (VLMs), such as OpenAI o3, GPT-4o and
Gemini, exhibit potential as general-purpose WMs. While the latest studies have
evaluated and shown limitations in specific capabilities such as visual
understanding, a systematic evaluation of VLMs' fundamental WM abilities
remains absent. Drawing on comparative psychology and cognitive science, we
propose a two-stage framework that assesses Perception (visual, spatial,
temporal, quantitative, and motion) and Prediction (mechanistic simulation,
transitive inference, compositional inference) to provide an atomic evaluation
of VLMs as WMs. Guided by this framework, we introduce WM-ABench, a large-scale
benchmark comprising 23 fine-grained evaluation dimensions across 6 diverse
simulated environments with controlled counterfactual simulations. Through 660
experiments on 15 latest commercial and open-source VLMs, we find that these
models exhibit striking limitations in basic world modeling abilities. For
instance, almost all models perform at near-random accuracy when distinguishing
motion trajectories. Additionally, they lack disentangled understanding --
e.g., some models tend to believe blue objects move faster than green ones.
More rich results and analyses reveal significant gaps between VLMs and
human-level world modeling.