ChatPaper.aiChatPaper

Jenseits der Erkennung: Bewertung der visuellen Perspektivenübernahme in Vision-Sprach-Modellen

Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

May 3, 2025
Autoren: Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński
cs.AI

Zusammenfassung

Wir untersuchen die Fähigkeit von Vision-Language-Modellen (VLMs), visuelle Perspektivübernahme durchzuführen, anhand eines neuartigen Satzes visueller Aufgaben, die von etablierten menschlichen Tests inspiriert sind. Unser Ansatz nutzt sorgfältig kontrollierte Szenen, in denen eine einzelne humanoide Minifigur mit einem einzelnen Objekt kombiniert wird. Durch systematische Variation räumlicher Konfigurationen – wie der Objektposition relativ zur humanoiden Minifigur und der Ausrichtung der humanoiden Minifigur – sowie die Verwendung von Vogelperspektiven und Oberflächenansichten haben wir 144 einzigartige visuelle Aufgaben erstellt. Jede visuelle Aufgabe wird mit einer Reihe von 7 diagnostischen Fragen gepaart, die darauf abzielen, drei Ebenen der visuellen Kognition zu bewerten: Szenenverständnis, räumliches Denken und visuelle Perspektivübernahme. Unsere Bewertung mehrerer state-of-the-art Modelle, darunter GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct und Varianten von Claude Sonnet, zeigt, dass sie zwar im Szenenverständnis hervorragend abschneiden, die Leistung jedoch beim räumlichen Denken deutlich abnimmt und bei der Perspektivübernahme weiter abfällt. Unsere Analyse deutet auf eine Lücke zwischen der oberflächlichen Objekterkennung und dem tieferen räumlichen und perspektivischen Denken hin, das für komplexe visuelle Aufgaben erforderlich ist, und weist auf die Notwendigkeit hin, explizite geometrische Darstellungen und maßgeschneiderte Trainingsprotokolle in die zukünftige Entwicklung von VLMs zu integrieren.
English
We investigate the ability of Vision Language Models (VLMs) to perform visual perspective taking using a novel set of visual tasks inspired by established human tests. Our approach leverages carefully controlled scenes, in which a single humanoid minifigure is paired with a single object. By systematically varying spatial configurations - such as object position relative to the humanoid minifigure and the humanoid minifigure's orientation - and using both bird's-eye and surface-level views, we created 144 unique visual tasks. Each visual task is paired with a series of 7 diagnostic questions designed to assess three levels of visual cognition: scene understanding, spatial reasoning, and visual perspective taking. Our evaluation of several state-of-the-art models, including GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct, and variants of Claude Sonnet, reveals that while they excel in scene understanding, the performance declines significantly on spatial reasoning and further deteriorates on perspective-taking. Our analysis suggests a gap between surface-level object recognition and the deeper spatial and perspective reasoning required for complex visual tasks, pointing to the need for integrating explicit geometric representations and tailored training protocols in future VLM development.

Summary

AI-Generated Summary

PDF211May 8, 2025