ChatPaper.aiChatPaper

Au-delà de la reconnaissance : Évaluation de la prise de perspective visuelle dans les modèles de langage visuel

Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models

May 3, 2025
Auteurs: Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński
cs.AI

Résumé

Nous étudions la capacité des modèles de vision et langage (VLMs) à effectuer une prise de perspective visuelle en utilisant un ensemble novateur de tâches visuelles inspirées de tests humains établis. Notre approche exploite des scènes soigneusement contrôlées, dans lesquelles une seule figurine humanoïde est associée à un seul objet. En variant systématiquement les configurations spatiales - telles que la position de l'objet par rapport à la figurine humanoïde et l'orientation de celle-ci - et en utilisant à la fois des vues aériennes et au niveau du sol, nous avons créé 144 tâches visuelles uniques. Chaque tâche visuelle est associée à une série de 7 questions diagnostiques conçues pour évaluer trois niveaux de cognition visuelle : la compréhension de la scène, le raisonnement spatial et la prise de perspective visuelle. Notre évaluation de plusieurs modèles de pointe, incluant GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct et des variantes de Claude Sonnet, révèle que bien qu'ils excellent dans la compréhension de la scène, leur performance décline significativement sur le raisonnement spatial et se détériore davantage sur la prise de perspective. Notre analyse suggère un écart entre la reconnaissance superficielle des objets et le raisonnement spatial et perspectif plus profond requis pour les tâches visuelles complexes, soulignant la nécessité d'intégrer des représentations géométriques explicites et des protocoles d'entraînement adaptés dans le développement futur des VLMs.
English
We investigate the ability of Vision Language Models (VLMs) to perform visual perspective taking using a novel set of visual tasks inspired by established human tests. Our approach leverages carefully controlled scenes, in which a single humanoid minifigure is paired with a single object. By systematically varying spatial configurations - such as object position relative to the humanoid minifigure and the humanoid minifigure's orientation - and using both bird's-eye and surface-level views, we created 144 unique visual tasks. Each visual task is paired with a series of 7 diagnostic questions designed to assess three levels of visual cognition: scene understanding, spatial reasoning, and visual perspective taking. Our evaluation of several state-of-the-art models, including GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct, and variants of Claude Sonnet, reveals that while they excel in scene understanding, the performance declines significantly on spatial reasoning and further deteriorates on perspective-taking. Our analysis suggests a gap between surface-level object recognition and the deeper spatial and perspective reasoning required for complex visual tasks, pointing to the need for integrating explicit geometric representations and tailored training protocols in future VLM development.

Summary

AI-Generated Summary

PDF211May 8, 2025