CAPTURe: 가려진 객체 카운팅을 통해 시각-언어 모델의 공간 추론 능력 평가
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting
April 21, 2025
저자: Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
cs.AI
초록
가려진(부분적 또는 완전히 숨겨진) 객체를 인식하고 추론하는 것은 시각적 장면을 이해하는 데 필수적입니다. 실제 환경에서는 가림 현상이 빈번하게 발생하며 공간적 이해를 방해하는 장애물로 작용하기 때문입니다. 여러 개의 가려진 객체에 대해 모델의 추론 능력을 테스트하기 위해, 우리는 새로운 과제인 '보이지 않는 영역을 통한 패턴의 무형식적 계수(CAPTURe)'를 도입했습니다. 이 과제는 모델이 장면의 일부를 가리는 물체(가림막) 뒤로 패턴이 어떻게 이어지는지를 추론하여 패턴으로 배열된 객체의 수를 세도록 요구합니다. CAPTURe는 시각적 패턴 인식과 추론을 모두 필요로 하므로, 가려진 패턴을 이해하고 공간적 이해 능력을 갖추고 있는지 비전-언어 모델(VLMs)을 평가하는 데 유용한 테스트베드 역할을 합니다. 또한 CAPTURe는 모델이 가려진 객체에 대해 추론하도록 요구함으로써, 모델이 누락된 정보를 채울 수 있는 세계 모델을 형성하는 능력을 테스트합니다. CAPTURe는 두 부분으로 구성됩니다: (1) 실제 객체의 패턴 이미지를 수동으로 필터링한 CAPTURe-real과 (2) 생성된 패턴 이미지를 사용한 통제된 진단 도구인 CAPTURe-synthetic입니다. 우리는 CAPTURe에서 네 가지 강력한 VLM(GPT-4o, Intern-VL2, Molmo, Qwen2-VL)을 평가한 결과, 모델들이 가려진 패턴과 가려지지 않은 패턴 모두에서 계수하는 데 어려움을 겪는 것을 발견했습니다. 특히, 모델들은 가림 현상이 있을 때 더 나쁜 성능을 보였는데, 이는 VLMs이 보이지 않는 공간적 관계를 추론하는 데에도 부족함이 있음을 시사합니다. 가장 강력한 VLM인 GPT-4o조차 가림 현상이 있을 때 계수하는 데 실패했습니다. 반면, 인간은 CAPTURe에서 매우 적은 오류를 보였습니다. 또한, 가려진 객체의 위치에 대한 보조 정보를 제공하면 성능이 향상되는 것을 발견했는데, 이는 모델의 오류가 가림 현상을 처리하지 못하는 것뿐만 아니라 이미지에서 계수하는 데 어려움을 겪는 데서도 비롯됨을 강조합니다.
English
Recognizing and reasoning about occluded (partially or fully hidden) objects
is vital to understanding visual scenes, as occlusions frequently occur in
real-world environments and act as obstacles for spatial comprehension. To test
models' ability to reason about multiple occluded objects, we introduce a novel
task, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), which
requires a model to count objects arranged in a pattern by inferring how the
pattern continues behind an occluder (an object which blocks parts of the
scene). CAPTURe requires both recognizing visual patterns and reasoning, making
it a useful testbed for evaluating vision-language models (VLMs) on whether
they understand occluded patterns and possess spatial understanding skills. By
requiring models to reason about occluded objects, CAPTURe also tests VLMs'
ability to form world models that would allow them to fill in missing
information. CAPTURe consists of two parts: (1) CAPTURe-real, with manually
filtered images of real objects in patterns and (2) CAPTURe-synthetic, a
controlled diagnostic with generated patterned images. We evaluate four strong
VLMs (GPT-4o, Intern-VL2, Molmo, and Qwen2-VL) on CAPTURe, finding that models
struggle to count on both occluded and unoccluded patterns. Crucially, we find
that models perform worse with occlusion, suggesting that VLMs are also
deficient in inferring unseen spatial relationships: even the strongest VLMs
like GPT-4o fail to count with occlusion. In contrast, we find that humans
achieve very little error on CAPTURe. We also find that providing auxiliary
information of occluded object locations increases performance, underscoring
that the model error comes both from an inability to handle occlusion as well
as difficulty counting in images.Summary
AI-Generated Summary