Oltre il Riconoscimento: Valutazione della Presa di Prospettiva Visiva nei Modelli Linguistico-Visivi

Abstract

Indaghiamo la capacità dei Modelli Linguistico-Visivi (VLMs) di eseguire la presa di prospettiva visiva utilizzando una nuova serie di compiti visivi ispirati a test consolidati sugli esseri umani. Il nostro approccio sfrutta scene accuratamente controllate, in cui una singola minifigura umanoide è abbinata a un singolo oggetto. Variando sistematicamente le configurazioni spaziali - come la posizione dell'oggetto rispetto alla minifigura umanoide e l'orientamento della minifigura umanoide - e utilizzando sia viste dall'alto che a livello della superficie, abbiamo creato 144 compiti visivi unici. Ogni compito visivo è associato a una serie di 7 domande diagnostiche progettate per valutare tre livelli di cognizione visiva: comprensione della scena, ragionamento spaziale e presa di prospettiva visiva. La nostra valutazione di diversi modelli all'avanguardia, tra cui GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct e varianti di Claude Sonnet, rivela che mentre eccellono nella comprensione della scena, le prestazioni diminuiscono significativamente nel ragionamento spaziale e si deteriorano ulteriormente nella presa di prospettiva. La nostra analisi suggerisce un divario tra il riconoscimento superficiale degli oggetti e il ragionamento spaziale e prospettico più profondo richiesto per compiti visivi complessi, indicando la necessità di integrare rappresentazioni geometriche esplicite e protocolli di formazione mirati nello sviluppo futuro dei VLMs.

English

We investigate the ability of Vision Language Models (VLMs) to perform visual perspective taking using a novel set of visual tasks inspired by established human tests. Our approach leverages carefully controlled scenes, in which a single humanoid minifigure is paired with a single object. By systematically varying spatial configurations - such as object position relative to the humanoid minifigure and the humanoid minifigure's orientation - and using both bird's-eye and surface-level views, we created 144 unique visual tasks. Each visual task is paired with a series of 7 diagnostic questions designed to assess three levels of visual cognition: scene understanding, spatial reasoning, and visual perspective taking. Our evaluation of several state-of-the-art models, including GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct, and variants of Claude Sonnet, reveals that while they excel in scene understanding, the performance declines significantly on spatial reasoning and further deteriorates on perspective-taking. Our analysis suggests a gap between surface-level object recognition and the deeper spatial and perspective reasoning required for complex visual tasks, pointing to the need for integrating explicit geometric representations and tailored training protocols in future VLM development.

Oltre il Riconoscimento: Valutazione della Presa di Prospettiva Visiva nei Modelli Linguistico-Visivi

Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

Abstract

Support