За пределами распознавания: оценка визуального восприятия перспективы в моделях обработки языка и изображений
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models
May 3, 2025
Авторы: Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński
cs.AI
Аннотация
Мы исследуем способность моделей, объединяющих зрение и язык (Vision Language Models, VLMs), выполнять задачи визуального принятия перспективы с использованием нового набора визуальных задач, вдохновленных известными тестами для людей. Наш подход основан на тщательно контролируемых сценах, в которых одна антропоморфная минифигурка сочетается с одним объектом. Систематически варьируя пространственные конфигурации — такие как положение объекта относительно минифигурки и ориентация самой минифигурки — и используя как вид сверху, так и вид на уровне поверхности, мы создали 144 уникальные визуальные задачи. Каждая задача сопровождается серией из 7 диагностических вопросов, предназначенных для оценки трех уровней визуального познания: понимания сцены, пространственного мышления и принятия визуальной перспективы. Наша оценка нескольких современных моделей, включая GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct и варианты Claude Sonnet, показывает, что, хотя они преуспевают в понимании сцены, их производительность значительно снижается в задачах пространственного мышления и еще больше ухудшается в задачах принятия перспективы. Наш анализ указывает на разрыв между поверхностным распознаванием объектов и более глубоким пространственным и перспективным мышлением, необходимым для сложных визуальных задач, что подчеркивает необходимость интеграции явных геометрических представлений и специализированных протоколов обучения в будущем развитии VLMs.
English
We investigate the ability of Vision Language Models (VLMs) to perform visual
perspective taking using a novel set of visual tasks inspired by established
human tests. Our approach leverages carefully controlled scenes, in which a
single humanoid minifigure is paired with a single object. By systematically
varying spatial configurations - such as object position relative to the
humanoid minifigure and the humanoid minifigure's orientation - and using both
bird's-eye and surface-level views, we created 144 unique visual tasks. Each
visual task is paired with a series of 7 diagnostic questions designed to
assess three levels of visual cognition: scene understanding, spatial
reasoning, and visual perspective taking. Our evaluation of several
state-of-the-art models, including GPT-4-Turbo, GPT-4o,
Llama-3.2-11B-Vision-Instruct, and variants of Claude Sonnet, reveals that
while they excel in scene understanding, the performance declines significantly
on spatial reasoning and further deteriorates on perspective-taking. Our
analysis suggests a gap between surface-level object recognition and the deeper
spatial and perspective reasoning required for complex visual tasks, pointing
to the need for integrating explicit geometric representations and tailored
training protocols in future VLM development.Summary
AI-Generated Summary