¿Los modelos de visión y lenguaje tienen modelos internos del mundo? Hacia una evaluación atómica
Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation
June 27, 2025
Autores: Qiyue Gao, Xinyu Pi, Kevin Liu, Junrong Chen, Ruolan Yang, Xinqi Huang, Xinyu Fang, Lu Sun, Gautham Kishore, Bo Ai, Stone Tao, Mengyang Liu, Jiaxi Yang, Chao-Jung Lai, Chuanyang Jin, Jiannan Xiang, Benhao Huang, Zeming Chen, David Danks, Hao Su, Tianmin Shu, Ziqiao Ma, Lianhui Qin, Zhiting Hu
cs.AI
Resumen
Los modelos internos del mundo (WMs, por sus siglas en inglés) permiten a los agentes comprender el estado del mundo y predecir transiciones, sirviendo como base para un razonamiento deliberativo avanzado. Los recientes modelos de visión y lenguaje a gran escala (VLMs), como OpenAI o3, GPT-4o y Gemini, muestran potencial como WMs de propósito general. Aunque los últimos estudios han evaluado y mostrado limitaciones en capacidades específicas, como la comprensión visual, aún falta una evaluación sistemática de las habilidades fundamentales de WMs en los VLMs. Basándonos en la psicología comparada y las ciencias cognitivas, proponemos un marco de dos etapas que evalúa la Percepción (visual, espacial, temporal, cuantitativa y de movimiento) y la Predicción (simulación mecanicista, inferencia transitiva, inferencia composicional) para proporcionar una evaluación atómica de los VLMs como WMs. Guiados por este marco, presentamos WM-ABench, un benchmark a gran escala que comprende 23 dimensiones de evaluación detalladas en 6 entornos simulados diversos con simulaciones contrafactuales controladas. A través de 660 experimentos en 15 VLMs comerciales y de código abierto más recientes, encontramos que estos modelos presentan limitaciones sorprendentes en habilidades básicas de modelado del mundo. Por ejemplo, casi todos los modelos tienen una precisión cercana al azar al distinguir trayectorias de movimiento. Además, carecen de una comprensión desentrelazada; por ejemplo, algunos modelos tienden a creer que los objetos azules se mueven más rápido que los verdes. Resultados y análisis más detallados revelan brechas significativas entre los VLMs y el modelado del mundo a nivel humano.
English
Internal world models (WMs) enable agents to understand the world's state and
predict transitions, serving as the basis for advanced deliberative reasoning.
Recent large Vision-Language Models (VLMs), such as OpenAI o3, GPT-4o and
Gemini, exhibit potential as general-purpose WMs. While the latest studies have
evaluated and shown limitations in specific capabilities such as visual
understanding, a systematic evaluation of VLMs' fundamental WM abilities
remains absent. Drawing on comparative psychology and cognitive science, we
propose a two-stage framework that assesses Perception (visual, spatial,
temporal, quantitative, and motion) and Prediction (mechanistic simulation,
transitive inference, compositional inference) to provide an atomic evaluation
of VLMs as WMs. Guided by this framework, we introduce WM-ABench, a large-scale
benchmark comprising 23 fine-grained evaluation dimensions across 6 diverse
simulated environments with controlled counterfactual simulations. Through 660
experiments on 15 latest commercial and open-source VLMs, we find that these
models exhibit striking limitations in basic world modeling abilities. For
instance, almost all models perform at near-random accuracy when distinguishing
motion trajectories. Additionally, they lack disentangled understanding --
e.g., some models tend to believe blue objects move faster than green ones.
More rich results and analyses reveal significant gaps between VLMs and
human-level world modeling.