Voorbij Herkenning: Evaluatie van Visueel Perspectief Nemen in Visueel-Taalmodellen
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models
May 3, 2025
Auteurs: Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński
cs.AI
Samenvatting
We onderzoeken het vermogen van Vision Language Models (VLMs) om visueel perspectief nemen uit te voeren met behulp van een nieuwe reeks visuele taken geïnspireerd op gevestigde menselijke tests. Onze aanpak maakt gebruik van zorgvuldig gecontroleerde scènes, waarin een enkele humanoïde minifiguur wordt gecombineerd met een enkel object. Door systematisch ruimtelijke configuraties te variëren - zoals de positie van het object ten opzichte van de humanoïde minifiguur en de oriëntatie van de humanoïde minifiguur - en zowel vogelperspectief als oppervlaktezicht te gebruiken, hebben we 144 unieke visuele taken gecreëerd. Elke visuele taak is gekoppeld aan een reeks van 7 diagnostische vragen die zijn ontworpen om drie niveaus van visuele cognitie te beoordelen: scènebegrip, ruimtelijk redeneren en visueel perspectief nemen. Onze evaluatie van verschillende state-of-the-art modellen, waaronder GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct en varianten van Claude Sonnet, toont aan dat ze uitblinken in scènebegrip, maar dat de prestaties aanzienlijk afnemen bij ruimtelijk redeneren en verder verslechteren bij perspectief nemen. Onze analyse suggereert een kloof tussen oppervlakkige objectherkenning en het diepere ruimtelijke en perspectiefredeneren dat nodig is voor complexe visuele taken, wat wijst op de noodzaak om expliciete geometrische representaties en op maat gemaakte trainingsprotocollen te integreren in toekomstige VLM-ontwikkeling.
English
We investigate the ability of Vision Language Models (VLMs) to perform visual
perspective taking using a novel set of visual tasks inspired by established
human tests. Our approach leverages carefully controlled scenes, in which a
single humanoid minifigure is paired with a single object. By systematically
varying spatial configurations - such as object position relative to the
humanoid minifigure and the humanoid minifigure's orientation - and using both
bird's-eye and surface-level views, we created 144 unique visual tasks. Each
visual task is paired with a series of 7 diagnostic questions designed to
assess three levels of visual cognition: scene understanding, spatial
reasoning, and visual perspective taking. Our evaluation of several
state-of-the-art models, including GPT-4-Turbo, GPT-4o,
Llama-3.2-11B-Vision-Instruct, and variants of Claude Sonnet, reveals that
while they excel in scene understanding, the performance declines significantly
on spatial reasoning and further deteriorates on perspective-taking. Our
analysis suggests a gap between surface-level object recognition and the deeper
spatial and perspective reasoning required for complex visual tasks, pointing
to the need for integrating explicit geometric representations and tailored
training protocols in future VLM development.