CAPTURe: 視覚言語モデルの空間推論能力を遮蔽物体カウントで評価
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting
April 21, 2025
著者: Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
cs.AI
要旨
視覚シーンを理解する上で、遮蔽された(部分的または完全に隠れた)物体を認識し、推論することは極めて重要です。なぜなら、現実世界の環境では遮蔽が頻繁に発生し、空間理解の障害となるからです。複数の遮蔽物体についてモデルの推論能力をテストするため、我々は新しいタスク「Counting Amodally for Patterns Through Unseen REgions(CAPTURe)」を導入しました。このタスクでは、モデルが遮蔽物(シーンの一部を遮る物体)の背後でパターンがどのように続くかを推論し、パターンに配置された物体を数える必要があります。CAPTUReは視覚パターンの認識と推論の両方を要求するため、視覚言語モデル(VLM)が遮蔽されたパターンを理解し、空間理解スキルを備えているかどうかを評価する有用なテストベッドとなります。遮蔽物体について推論することを要求することで、CAPTUReはVLMが欠落した情報を補完するための世界モデルを形成する能力もテストします。CAPTUReは2つの部分で構成されています:(1)CAPTURe-real:パターンに配置された実物体の手動でフィルタリングされた画像、(2)CAPTURe-synthetic:生成されたパターン画像を用いた制御された診断テストです。我々は4つの強力なVLM(GPT-4o、Intern-VL2、Molmo、Qwen2-VL)をCAPTUReで評価し、モデルが遮蔽されたパターンと遮蔽されていないパターンの両方で数を数えるのに苦労することを発見しました。特に、遮蔽がある場合にモデルの性能が低下することから、VLMが未見の空間関係を推論する能力にも欠けていることが示唆されます。最も強力なVLMであるGPT-4oでさえ、遮蔽がある場合に数を数えることに失敗します。一方、人間はCAPTUReで非常に少ないエラーしか起こしません。また、遮蔽物体の位置に関する補助情報を提供することで性能が向上することから、モデルのエラーは遮蔽を処理できないことと、画像内で数を数える難しさの両方に起因していることが強調されます。
English
Recognizing and reasoning about occluded (partially or fully hidden) objects
is vital to understanding visual scenes, as occlusions frequently occur in
real-world environments and act as obstacles for spatial comprehension. To test
models' ability to reason about multiple occluded objects, we introduce a novel
task, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), which
requires a model to count objects arranged in a pattern by inferring how the
pattern continues behind an occluder (an object which blocks parts of the
scene). CAPTURe requires both recognizing visual patterns and reasoning, making
it a useful testbed for evaluating vision-language models (VLMs) on whether
they understand occluded patterns and possess spatial understanding skills. By
requiring models to reason about occluded objects, CAPTURe also tests VLMs'
ability to form world models that would allow them to fill in missing
information. CAPTURe consists of two parts: (1) CAPTURe-real, with manually
filtered images of real objects in patterns and (2) CAPTURe-synthetic, a
controlled diagnostic with generated patterned images. We evaluate four strong
VLMs (GPT-4o, Intern-VL2, Molmo, and Qwen2-VL) on CAPTURe, finding that models
struggle to count on both occluded and unoccluded patterns. Crucially, we find
that models perform worse with occlusion, suggesting that VLMs are also
deficient in inferring unseen spatial relationships: even the strongest VLMs
like GPT-4o fail to count with occlusion. In contrast, we find that humans
achieve very little error on CAPTURe. We also find that providing auxiliary
information of occluded object locations increases performance, underscoring
that the model error comes both from an inability to handle occlusion as well
as difficulty counting in images.Summary
AI-Generated Summary