Além do Reconhecimento: Avaliando a Tomada de Perspectiva Visual em Modelos de Linguagem e Visão
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models
May 3, 2025
Autores: Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński
cs.AI
Resumo
Investigamos a capacidade dos Modelos de Linguagem Visual (VLMs) em realizar tomada de perspectiva visual utilizando um novo conjunto de tarefas visuais inspiradas em testes humanos estabelecidos. Nossa abordagem aproveita cenas cuidadosamente controladas, nas quais uma única minifigura humanóide é emparelhada com um único objeto. Ao variar sistematicamente as configurações espaciais — como a posição do objeto em relação à minifigura humanóide e a orientação da minifigura humanóide — e utilizando tanto visões de cima (bird's-eye) quanto de nível de superfície, criamos 144 tarefas visuais únicas. Cada tarefa visual é associada a uma série de 7 perguntas diagnósticas projetadas para avaliar três níveis de cognição visual: compreensão da cena, raciocínio espacial e tomada de perspectiva visual. Nossa avaliação de vários modelos de última geração, incluindo GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct e variantes do Claude Sonnet, revela que, embora eles se destaquem na compreensão da cena, o desempenho diminui significativamente no raciocínio espacial e se deteriora ainda mais na tomada de perspectiva. Nossa análise sugere uma lacuna entre o reconhecimento superficial de objetos e o raciocínio espacial e de perspectiva mais profundo necessário para tarefas visuais complexas, apontando para a necessidade de integrar representações geométricas explícitas e protocolos de treinamento personalizados no desenvolvimento futuro de VLMs.
English
We investigate the ability of Vision Language Models (VLMs) to perform visual
perspective taking using a novel set of visual tasks inspired by established
human tests. Our approach leverages carefully controlled scenes, in which a
single humanoid minifigure is paired with a single object. By systematically
varying spatial configurations - such as object position relative to the
humanoid minifigure and the humanoid minifigure's orientation - and using both
bird's-eye and surface-level views, we created 144 unique visual tasks. Each
visual task is paired with a series of 7 diagnostic questions designed to
assess three levels of visual cognition: scene understanding, spatial
reasoning, and visual perspective taking. Our evaluation of several
state-of-the-art models, including GPT-4-Turbo, GPT-4o,
Llama-3.2-11B-Vision-Instruct, and variants of Claude Sonnet, reveals that
while they excel in scene understanding, the performance declines significantly
on spatial reasoning and further deteriorates on perspective-taking. Our
analysis suggests a gap between surface-level object recognition and the deeper
spatial and perspective reasoning required for complex visual tasks, pointing
to the need for integrating explicit geometric representations and tailored
training protocols in future VLM development.