Más allá del reconocimiento: Evaluación de la toma de perspectiva visual en modelos de lenguaje y visión
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models
May 3, 2025
Autores: Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński
cs.AI
Resumen
Investigamos la capacidad de los Modelos de Lenguaje Visual (VLMs) para realizar toma de perspectiva visual utilizando un conjunto novedoso de tareas visuales inspiradas en pruebas establecidas para humanos. Nuestro enfoque aprovecha escenas cuidadosamente controladas, en las que una única minifigura humanoide se empareja con un solo objeto. Al variar sistemáticamente las configuraciones espaciales —como la posición del objeto en relación con la minifigura humanoide y la orientación de esta— y utilizando tanto vistas aéreas como a nivel de superficie, creamos 144 tareas visuales únicas. Cada tarea visual se combina con una serie de 7 preguntas diagnósticas diseñadas para evaluar tres niveles de cognición visual: comprensión de la escena, razonamiento espacial y toma de perspectiva visual. Nuestra evaluación de varios modelos de última generación, incluyendo GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct y variantes de Claude Sonnet, revela que, aunque destacan en la comprensión de la escena, su rendimiento disminuye significativamente en el razonamiento espacial y se deteriora aún más en la toma de perspectiva. Nuestro análisis sugiere una brecha entre el reconocimiento superficial de objetos y el razonamiento espacial y de perspectiva más profundo requerido para tareas visuales complejas, señalando la necesidad de integrar representaciones geométricas explícitas y protocolos de entrenamiento específicos en el desarrollo futuro de los VLMs.
English
We investigate the ability of Vision Language Models (VLMs) to perform visual
perspective taking using a novel set of visual tasks inspired by established
human tests. Our approach leverages carefully controlled scenes, in which a
single humanoid minifigure is paired with a single object. By systematically
varying spatial configurations - such as object position relative to the
humanoid minifigure and the humanoid minifigure's orientation - and using both
bird's-eye and surface-level views, we created 144 unique visual tasks. Each
visual task is paired with a series of 7 diagnostic questions designed to
assess three levels of visual cognition: scene understanding, spatial
reasoning, and visual perspective taking. Our evaluation of several
state-of-the-art models, including GPT-4-Turbo, GPT-4o,
Llama-3.2-11B-Vision-Instruct, and variants of Claude Sonnet, reveals that
while they excel in scene understanding, the performance declines significantly
on spatial reasoning and further deteriorates on perspective-taking. Our
analysis suggests a gap between surface-level object recognition and the deeper
spatial and perspective reasoning required for complex visual tasks, pointing
to the need for integrating explicit geometric representations and tailored
training protocols in future VLM development.Summary
AI-Generated Summary