Jenseits der Erkennung: Bewertung der visuellen Perspektivenübernahme in Vision-Sprach-Modellen
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models
May 3, 2025
Autoren: Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński
cs.AI
Zusammenfassung
Wir untersuchen die Fähigkeit von Vision-Language-Modellen (VLMs), visuelle Perspektivübernahme durchzuführen, anhand eines neuartigen Satzes visueller Aufgaben, die von etablierten menschlichen Tests inspiriert sind. Unser Ansatz nutzt sorgfältig kontrollierte Szenen, in denen eine einzelne humanoide Minifigur mit einem einzelnen Objekt kombiniert wird. Durch systematische Variation räumlicher Konfigurationen – wie der Objektposition relativ zur humanoiden Minifigur und der Ausrichtung der humanoiden Minifigur – sowie die Verwendung von Vogelperspektiven und Oberflächenansichten haben wir 144 einzigartige visuelle Aufgaben erstellt. Jede visuelle Aufgabe wird mit einer Reihe von 7 diagnostischen Fragen gepaart, die darauf abzielen, drei Ebenen der visuellen Kognition zu bewerten: Szenenverständnis, räumliches Denken und visuelle Perspektivübernahme. Unsere Bewertung mehrerer state-of-the-art Modelle, darunter GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct und Varianten von Claude Sonnet, zeigt, dass sie zwar im Szenenverständnis hervorragend abschneiden, die Leistung jedoch beim räumlichen Denken deutlich abnimmt und bei der Perspektivübernahme weiter abfällt. Unsere Analyse deutet auf eine Lücke zwischen der oberflächlichen Objekterkennung und dem tieferen räumlichen und perspektivischen Denken hin, das für komplexe visuelle Aufgaben erforderlich ist, und weist auf die Notwendigkeit hin, explizite geometrische Darstellungen und maßgeschneiderte Trainingsprotokolle in die zukünftige Entwicklung von VLMs zu integrieren.
English
We investigate the ability of Vision Language Models (VLMs) to perform visual
perspective taking using a novel set of visual tasks inspired by established
human tests. Our approach leverages carefully controlled scenes, in which a
single humanoid minifigure is paired with a single object. By systematically
varying spatial configurations - such as object position relative to the
humanoid minifigure and the humanoid minifigure's orientation - and using both
bird's-eye and surface-level views, we created 144 unique visual tasks. Each
visual task is paired with a series of 7 diagnostic questions designed to
assess three levels of visual cognition: scene understanding, spatial
reasoning, and visual perspective taking. Our evaluation of several
state-of-the-art models, including GPT-4-Turbo, GPT-4o,
Llama-3.2-11B-Vision-Instruct, and variants of Claude Sonnet, reveals that
while they excel in scene understanding, the performance declines significantly
on spatial reasoning and further deteriorates on perspective-taking. Our
analysis suggests a gap between surface-level object recognition and the deeper
spatial and perspective reasoning required for complex visual tasks, pointing
to the need for integrating explicit geometric representations and tailored
training protocols in future VLM development.Summary
AI-Generated Summary