Les modèles vision-langage possèdent-ils des modèles internes du monde ? Vers une évaluation atomique
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation
June 27, 2025
Auteurs: Qiyue Gao, Xinyu Pi, Kevin Liu, Junrong Chen, Ruolan Yang, Xinqi Huang, Xinyu Fang, Lu Sun, Gautham Kishore, Bo Ai, Stone Tao, Mengyang Liu, Jiaxi Yang, Chao-Jung Lai, Chuanyang Jin, Jiannan Xiang, Benhao Huang, Zeming Chen, David Danks, Hao Su, Tianmin Shu, Ziqiao Ma, Lianhui Qin, Zhiting Hu
cs.AI
Résumé
Les modèles internes du monde (WMs) permettent aux agents de comprendre l'état du monde et de prédire les transitions, servant de base à un raisonnement délibératif avancé. Les récents grands modèles vision-langage (VLMs), tels qu'OpenAI o3, GPT-4o et Gemini, montrent un potentiel en tant que WMs à usage général. Bien que les dernières études aient évalué et révélé des limitations dans des capacités spécifiques telles que la compréhension visuelle, une évaluation systématique des capacités fondamentales des VLMs en tant que WMs fait encore défaut. S'inspirant de la psychologie comparative et des sciences cognitives, nous proposons un cadre en deux étapes qui évalue la Perception (visuelle, spatiale, temporelle, quantitative et du mouvement) et la Prédiction (simulation mécaniste, inférence transitive, inférence compositionnelle) pour fournir une évaluation atomique des VLMs en tant que WMs. Guidés par ce cadre, nous introduisons WM-ABench, un benchmark à grande échelle comprenant 23 dimensions d'évaluation fines réparties dans 6 environnements simulés diversifiés avec des simulations contrefactuelles contrôlées. À travers 660 expériences sur 15 VLMs commerciaux et open-source les plus récents, nous constatons que ces modèles présentent des limitations frappantes dans les capacités de modélisation du monde de base. Par exemple, presque tous les modèles obtiennent une précision proche du hasard lorsqu'il s'agit de distinguer des trajectoires de mouvement. De plus, ils manquent de compréhension désentrelacée -- par exemple, certains modèles ont tendance à croire que les objets bleus se déplacent plus vite que les objets verts. Des résultats et analyses plus riches révèlent des écarts significatifs entre les VLMs et la modélisation du monde au niveau humain.
English
Internal world models (WMs) enable agents to understand the world's state and
predict transitions, serving as the basis for advanced deliberative reasoning.
Recent large Vision-Language Models (VLMs), such as OpenAI o3, GPT-4o and
Gemini, exhibit potential as general-purpose WMs. While the latest studies have
evaluated and shown limitations in specific capabilities such as visual
understanding, a systematic evaluation of VLMs' fundamental WM abilities
remains absent. Drawing on comparative psychology and cognitive science, we
propose a two-stage framework that assesses Perception (visual, spatial,
temporal, quantitative, and motion) and Prediction (mechanistic simulation,
transitive inference, compositional inference) to provide an atomic evaluation
of VLMs as WMs. Guided by this framework, we introduce WM-ABench, a large-scale
benchmark comprising 23 fine-grained evaluation dimensions across 6 diverse
simulated environments with controlled counterfactual simulations. Through 660
experiments on 15 latest commercial and open-source VLMs, we find that these
models exhibit striking limitations in basic world modeling abilities. For
instance, almost all models perform at near-random accuracy when distinguishing
motion trajectories. Additionally, they lack disentangled understanding --
e.g., some models tend to believe blue objects move faster than green ones.
More rich results and analyses reveal significant gaps between VLMs and
human-level world modeling.