Hebben Vision-Taalmodellen Interne Wereldmodellen? Naar een Atomaire Evaluatie
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation
June 27, 2025
Auteurs: Qiyue Gao, Xinyu Pi, Kevin Liu, Junrong Chen, Ruolan Yang, Xinqi Huang, Xinyu Fang, Lu Sun, Gautham Kishore, Bo Ai, Stone Tao, Mengyang Liu, Jiaxi Yang, Chao-Jung Lai, Chuanyang Jin, Jiannan Xiang, Benhao Huang, Zeming Chen, David Danks, Hao Su, Tianmin Shu, Ziqiao Ma, Lianhui Qin, Zhiting Hu
cs.AI
Samenvatting
Interne wereldmodellen (WMs) stellen agents in staat om de toestand van de wereld te begrijpen en overgangen te voorspellen, wat de basis vormt voor geavanceerd beredeneerd denken. Recente grote Vision-Language Models (VLMs), zoals OpenAI o3, GPT-4o en Gemini, tonen potentieel als algemene WMs. Hoewel de nieuwste studies specifieke capaciteiten zoals visueel begrip hebben geëvalueerd en beperkingen hebben aangetoond, ontbreekt een systematische evaluatie van de fundamentele WM-vaardigheden van VLMs. Gebaseerd op vergelijkende psychologie en cognitieve wetenschap, stellen we een tweestappenraamwerk voor dat Perceptie (visueel, ruimtelijk, temporeel, kwantitatief en beweging) en Voorspelling (mechanistische simulatie, transitieve inferentie, compositionele inferentie) beoordeelt om een atomaire evaluatie van VLMs als WMs te bieden. Geleid door dit raamwerk introduceren we WM-ABench, een grootschalige benchmark bestaande uit 23 fijnmazige evaluatiedimensies over 6 diverse gesimuleerde omgevingen met gecontroleerde tegenfactoriële simulaties. Via 660 experimenten op 15 recente commerciële en open-source VLMs, ontdekken we dat deze modellen opvallende beperkingen vertonen in basale wereldmodelleringsvaardigheden. Zo presteren bijna alle modellen op bijna willekeurige nauwkeurigheid bij het onderscheiden van bewegingsbanen. Daarnaast ontbreekt het hen aan ontward begrip – sommige modellen geloven bijvoorbeeld dat blauwe objecten sneller bewegen dan groene. Rijkere resultaten en analyses onthullen aanzienlijke kloof tussen VLMs en menselijk niveau van wereldmodellering.
English
Internal world models (WMs) enable agents to understand the world's state and
predict transitions, serving as the basis for advanced deliberative reasoning.
Recent large Vision-Language Models (VLMs), such as OpenAI o3, GPT-4o and
Gemini, exhibit potential as general-purpose WMs. While the latest studies have
evaluated and shown limitations in specific capabilities such as visual
understanding, a systematic evaluation of VLMs' fundamental WM abilities
remains absent. Drawing on comparative psychology and cognitive science, we
propose a two-stage framework that assesses Perception (visual, spatial,
temporal, quantitative, and motion) and Prediction (mechanistic simulation,
transitive inference, compositional inference) to provide an atomic evaluation
of VLMs as WMs. Guided by this framework, we introduce WM-ABench, a large-scale
benchmark comprising 23 fine-grained evaluation dimensions across 6 diverse
simulated environments with controlled counterfactual simulations. Through 660
experiments on 15 latest commercial and open-source VLMs, we find that these
models exhibit striking limitations in basic world modeling abilities. For
instance, almost all models perform at near-random accuracy when distinguishing
motion trajectories. Additionally, they lack disentangled understanding --
e.g., some models tend to believe blue objects move faster than green ones.
More rich results and analyses reveal significant gaps between VLMs and
human-level world modeling.