ChatPaper.aiChatPaper

Os Modelos Visão-Linguagem Possuem Modelos Internos do Mundo? Rumo a uma Avaliação Atômica

Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation

June 27, 2025
Autores: Qiyue Gao, Xinyu Pi, Kevin Liu, Junrong Chen, Ruolan Yang, Xinqi Huang, Xinyu Fang, Lu Sun, Gautham Kishore, Bo Ai, Stone Tao, Mengyang Liu, Jiaxi Yang, Chao-Jung Lai, Chuanyang Jin, Jiannan Xiang, Benhao Huang, Zeming Chen, David Danks, Hao Su, Tianmin Shu, Ziqiao Ma, Lianhui Qin, Zhiting Hu
cs.AI

Resumo

Modelos internos do mundo (WMs, do inglês "World Models") permitem que agentes compreendam o estado do mundo e prevejam transições, servindo como base para raciocínio deliberativo avançado. Modelos recentes de Visão e Linguagem de grande escala (VLMs, do inglês "Vision-Language Models"), como o OpenAI o3, GPT-4o e Gemini, demonstram potencial como WMs de propósito geral. Embora os estudos mais recentes tenham avaliado e mostrado limitações em capacidades específicas, como compreensão visual, uma avaliação sistemática das habilidades fundamentais de WMs em VLMs ainda está ausente. Baseando-nos na psicologia comparativa e na ciência cognitiva, propomos um framework de duas etapas que avalia Percepção (visual, espacial, temporal, quantitativa e de movimento) e Previsão (simulação mecanicista, inferência transitiva, inferência composicional) para fornecer uma avaliação atômica de VLMs como WMs. Guiados por esse framework, introduzimos o WM-ABench, um benchmark em larga escala composto por 23 dimensões de avaliação detalhadas em 6 ambientes simulados diversos com simulações contrafactuais controladas. Por meio de 660 experimentos em 15 VLMs comerciais e de código aberto mais recentes, descobrimos que esses modelos apresentam limitações marcantes em habilidades básicas de modelagem do mundo. Por exemplo, quase todos os modelos apresentam precisão próxima ao acaso ao distinguir trajetórias de movimento. Além disso, eles carecem de compreensão desacoplada — por exemplo, alguns modelos tendem a acreditar que objetos azuis se movem mais rápido que os verdes. Resultados e análises mais ricos revelam lacunas significativas entre VLMs e a modelagem do mundo em nível humano.
English
Internal world models (WMs) enable agents to understand the world's state and predict transitions, serving as the basis for advanced deliberative reasoning. Recent large Vision-Language Models (VLMs), such as OpenAI o3, GPT-4o and Gemini, exhibit potential as general-purpose WMs. While the latest studies have evaluated and shown limitations in specific capabilities such as visual understanding, a systematic evaluation of VLMs' fundamental WM abilities remains absent. Drawing on comparative psychology and cognitive science, we propose a two-stage framework that assesses Perception (visual, spatial, temporal, quantitative, and motion) and Prediction (mechanistic simulation, transitive inference, compositional inference) to provide an atomic evaluation of VLMs as WMs. Guided by this framework, we introduce WM-ABench, a large-scale benchmark comprising 23 fine-grained evaluation dimensions across 6 diverse simulated environments with controlled counterfactual simulations. Through 660 experiments on 15 latest commercial and open-source VLMs, we find that these models exhibit striking limitations in basic world modeling abilities. For instance, almost all models perform at near-random accuracy when distinguishing motion trajectories. Additionally, they lack disentangled understanding -- e.g., some models tend to believe blue objects move faster than green ones. More rich results and analyses reveal significant gaps between VLMs and human-level world modeling.
PDF271June 30, 2025