CAPTURe: Bewertung des räumlichen Denkens in visuellen Sprachmodellen durch die Zählung verdeckter Objekte
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting
April 21, 2025
Autoren: Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
cs.AI
Zusammenfassung
Das Erkennen und Schlussfolgern über verdeckte (teilweise oder vollständig versteckte) Objekte ist entscheidend für das Verständnis visueller Szenen, da Verdeckungen in realen Umgebungen häufig auftreten und als Hindernisse für das räumliche Verständnis wirken. Um die Fähigkeit von Modellen zu testen, über mehrere verdeckte Objekte zu schlussfolgern, führen wir eine neuartige Aufgabe ein: Counting Amodally for Patterns Through Unseen REgions (CAPTURe). Diese Aufgabe erfordert, dass ein Model Objekte, die in einem Muster angeordnet sind, zählt, indem es ableitet, wie sich das Muster hinter einem Verdeckungsobjekt (einem Objekt, das Teile der Szene blockiert) fortsetzt. CAPTURe erfordert sowohl das Erkennen visueller Muster als auch logisches Schlussfolgern, was es zu einem nützlichen Testfeld macht, um Vision-Language-Modelle (VLMs) darauf zu evaluieren, ob sie verdeckte Muster verstehen und räumliche Verständnisfähigkeiten besitzen. Indem CAPTURe Modelle dazu auffordert, über verdeckte Objekte zu schlussfolgern, testet es auch die Fähigkeit von VLMs, Weltmodelle zu bilden, die es ihnen ermöglichen, fehlende Informationen zu ergänzen. CAPTURe besteht aus zwei Teilen: (1) CAPTURe-real, mit manuell gefilterten Bildern realer Objekte in Mustern, und (2) CAPTURe-synthetic, einer kontrollierten Diagnose mit generierten Mustern. Wir evaluieren vier leistungsstarke VLMs (GPT-4o, Intern-VL2, Molmo und Qwen2-VL) auf CAPTURe und stellen fest, dass die Modelle sowohl bei verdeckten als auch bei unverdeckten Mustern Schwierigkeiten beim Zählen haben. Entscheidend ist, dass wir feststellen, dass die Modelle bei Verdeckungen schlechter abschneiden, was darauf hindeutet, dass VLMs auch beim Ableiten unsichtbarer räumlicher Beziehungen Defizite aufweisen: Selbst die stärksten VLMs wie GPT-4o scheitern beim Zählen mit Verdeckungen. Im Gegensatz dazu stellen wir fest, dass Menschen bei CAPTURe sehr geringe Fehlerraten erzielen. Wir finden auch, dass die Bereitstellung zusätzlicher Informationen über die Positionen verdeckter Objekte die Leistung verbessert, was unterstreicht, dass die Modellfehler sowohl auf die Unfähigkeit, mit Verdeckungen umzugehen, als auch auf Schwierigkeiten beim Zählen in Bildern zurückzuführen sind.
English
Recognizing and reasoning about occluded (partially or fully hidden) objects
is vital to understanding visual scenes, as occlusions frequently occur in
real-world environments and act as obstacles for spatial comprehension. To test
models' ability to reason about multiple occluded objects, we introduce a novel
task, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), which
requires a model to count objects arranged in a pattern by inferring how the
pattern continues behind an occluder (an object which blocks parts of the
scene). CAPTURe requires both recognizing visual patterns and reasoning, making
it a useful testbed for evaluating vision-language models (VLMs) on whether
they understand occluded patterns and possess spatial understanding skills. By
requiring models to reason about occluded objects, CAPTURe also tests VLMs'
ability to form world models that would allow them to fill in missing
information. CAPTURe consists of two parts: (1) CAPTURe-real, with manually
filtered images of real objects in patterns and (2) CAPTURe-synthetic, a
controlled diagnostic with generated patterned images. We evaluate four strong
VLMs (GPT-4o, Intern-VL2, Molmo, and Qwen2-VL) on CAPTURe, finding that models
struggle to count on both occluded and unoccluded patterns. Crucially, we find
that models perform worse with occlusion, suggesting that VLMs are also
deficient in inferring unseen spatial relationships: even the strongest VLMs
like GPT-4o fail to count with occlusion. In contrast, we find that humans
achieve very little error on CAPTURe. We also find that providing auxiliary
information of occluded object locations increases performance, underscoring
that the model error comes both from an inability to handle occlusion as well
as difficulty counting in images.Summary
AI-Generated Summary