Oltre il Riconoscimento: Valutazione della Presa di Prospettiva Visiva nei Modelli Linguistico-Visivi
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models
May 3, 2025
Autori: Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński
cs.AI
Abstract
Indaghiamo la capacità dei Modelli Linguistico-Visivi (VLMs) di eseguire la presa di prospettiva visiva utilizzando una nuova serie di compiti visivi ispirati a test consolidati sugli esseri umani. Il nostro approccio sfrutta scene accuratamente controllate, in cui una singola minifigura umanoide è abbinata a un singolo oggetto. Variando sistematicamente le configurazioni spaziali - come la posizione dell'oggetto rispetto alla minifigura umanoide e l'orientamento della minifigura umanoide - e utilizzando sia viste dall'alto che a livello della superficie, abbiamo creato 144 compiti visivi unici. Ogni compito visivo è associato a una serie di 7 domande diagnostiche progettate per valutare tre livelli di cognizione visiva: comprensione della scena, ragionamento spaziale e presa di prospettiva visiva. La nostra valutazione di diversi modelli all'avanguardia, tra cui GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct e varianti di Claude Sonnet, rivela che mentre eccellono nella comprensione della scena, le prestazioni diminuiscono significativamente nel ragionamento spaziale e si deteriorano ulteriormente nella presa di prospettiva. La nostra analisi suggerisce un divario tra il riconoscimento superficiale degli oggetti e il ragionamento spaziale e prospettico più profondo richiesto per compiti visivi complessi, indicando la necessità di integrare rappresentazioni geometriche esplicite e protocolli di formazione mirati nello sviluppo futuro dei VLMs.
English
We investigate the ability of Vision Language Models (VLMs) to perform visual
perspective taking using a novel set of visual tasks inspired by established
human tests. Our approach leverages carefully controlled scenes, in which a
single humanoid minifigure is paired with a single object. By systematically
varying spatial configurations - such as object position relative to the
humanoid minifigure and the humanoid minifigure's orientation - and using both
bird's-eye and surface-level views, we created 144 unique visual tasks. Each
visual task is paired with a series of 7 diagnostic questions designed to
assess three levels of visual cognition: scene understanding, spatial
reasoning, and visual perspective taking. Our evaluation of several
state-of-the-art models, including GPT-4-Turbo, GPT-4o,
Llama-3.2-11B-Vision-Instruct, and variants of Claude Sonnet, reveals that
while they excel in scene understanding, the performance declines significantly
on spatial reasoning and further deteriorates on perspective-taking. Our
analysis suggests a gap between surface-level object recognition and the deeper
spatial and perspective reasoning required for complex visual tasks, pointing
to the need for integrating explicit geometric representations and tailored
training protocols in future VLM development.