認識を超えて:視覚言語モデルにおける視点取得能力の評価
Beyond Recognition: Evaluating Visual Perspective Taking in Vision Language Models
May 3, 2025
著者: Gracjan Góral, Alicja Ziarko, Piotr Miłoś, Michał Nauman, Maciej Wołczyk, Michał Kosiński
cs.AI
要旨
視覚言語モデル(VLMs)の視点取得能力を調査するため、確立された人間のテストに着想を得た新たな視覚タスクセットを用いました。本アプローチでは、単一のヒューマノイドミニフィギュアと単一のオブジェクトを組み合わせた、厳密に制御されたシーンを活用しています。オブジェクトの位置やヒューマノイドミニフィギュアの向きといった空間配置を体系的に変化させ、鳥瞰図と地上レベルの視点の両方を使用することで、144のユニークな視覚タスクを作成しました。各視覚タスクは、シーン理解、空間推論、視点取得という3つのレベルの視覚認知を評価するために設計された7つの診断質問とペアになっています。GPT-4-Turbo、GPT-4o、Llama-3.2-11B-Vision-Instruct、およびClaude Sonnetのバリエーションを含むいくつかの最先端モデルを評価した結果、シーン理解では優れた性能を示すものの、空間推論では性能が大幅に低下し、視点取得ではさらに悪化することが明らかになりました。分析結果から、表層的な物体認識と、複雑な視覚タスクに必要な深い空間的・視点的推論との間にギャップがあることが示唆され、今後のVLM開発において明示的な幾何学的表現と特化したトレーニングプロトコルの統合が必要であることが指摘されました。
English
We investigate the ability of Vision Language Models (VLMs) to perform visual
perspective taking using a novel set of visual tasks inspired by established
human tests. Our approach leverages carefully controlled scenes, in which a
single humanoid minifigure is paired with a single object. By systematically
varying spatial configurations - such as object position relative to the
humanoid minifigure and the humanoid minifigure's orientation - and using both
bird's-eye and surface-level views, we created 144 unique visual tasks. Each
visual task is paired with a series of 7 diagnostic questions designed to
assess three levels of visual cognition: scene understanding, spatial
reasoning, and visual perspective taking. Our evaluation of several
state-of-the-art models, including GPT-4-Turbo, GPT-4o,
Llama-3.2-11B-Vision-Instruct, and variants of Claude Sonnet, reveals that
while they excel in scene understanding, the performance declines significantly
on spatial reasoning and further deteriorates on perspective-taking. Our
analysis suggests a gap between surface-level object recognition and the deeper
spatial and perspective reasoning required for complex visual tasks, pointing
to the need for integrating explicit geometric representations and tailored
training protocols in future VLM development.Summary
AI-Generated Summary