인식의 한계를 넘어: 비전 언어 모델의 시각적 관점 수용 능력 평가
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models
May 3, 2025
저자: Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński
cs.AI
초록
우리는 인간 테스트에서 영감을 받아 새롭게 설계한 시각 과제 세트를 활용하여 비전 언어 모델(VLMs)의 시각적 관점 수용 능력을 조사한다. 본 연구의 접근 방식은 단일 휴머노이드 미니피규어와 단일 물체가 짝을 이루는 세밀하게 통제된 장면을 활용한다. 물체의 위치를 휴머노이드 미니피규어에 상대적으로 변화시키고, 휴머노이드 미니피규어의 방향을 조정하며, 조감도와 표면 수준의 시점을 모두 사용함으로써 총 144개의 독특한 시각 과제를 생성하였다. 각 시각 과제는 장면 이해, 공간 추론, 시각적 관점 수용이라는 세 가지 수준의 시각 인지를 평가하기 위해 설계된 7개의 진단 질문과 짝을 이룬다. GPT-4-Turbo, GPT-4o, Llama-3.2-11B-Vision-Instruct 및 Claude Sonnet의 변형을 포함한 여러 최신 모델을 평가한 결과, 이들은 장면 이해에서는 뛰어난 성능을 보였으나 공간 추론에서는 성능이 크게 저하되었고, 관점 수용에서는 더욱 악화되었다. 우리의 분석은 복잡한 시각 과제에 필요한 깊이 있는 공간 및 관점 추론과 표면 수준의 물체 인식 간의 격차를 시사하며, 향후 VLM 개발에서 명시적인 기하학적 표현과 맞춤형 훈련 프로토콜의 통합이 필요함을 지적한다.
English
We investigate the ability of Vision Language Models (VLMs) to perform visual
perspective taking using a novel set of visual tasks inspired by established
human tests. Our approach leverages carefully controlled scenes, in which a
single humanoid minifigure is paired with a single object. By systematically
varying spatial configurations - such as object position relative to the
humanoid minifigure and the humanoid minifigure's orientation - and using both
bird's-eye and surface-level views, we created 144 unique visual tasks. Each
visual task is paired with a series of 7 diagnostic questions designed to
assess three levels of visual cognition: scene understanding, spatial
reasoning, and visual perspective taking. Our evaluation of several
state-of-the-art models, including GPT-4-Turbo, GPT-4o,
Llama-3.2-11B-Vision-Instruct, and variants of Claude Sonnet, reveals that
while they excel in scene understanding, the performance declines significantly
on spatial reasoning and further deteriorates on perspective-taking. Our
analysis suggests a gap between surface-level object recognition and the deeper
spatial and perspective reasoning required for complex visual tasks, pointing
to the need for integrating explicit geometric representations and tailored
training protocols in future VLM development.Summary
AI-Generated Summary