CAPTURe: Valutazione del Ragionamento Spaziale nei Modelli Linguistico-Visuali tramite Conteggio di Oggetti Occlusi
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting
April 21, 2025
Autori: Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
cs.AI
Abstract
Riconoscere e ragionare su oggetti occlusi (parzialmente o completamente nascosti) è fondamentale per comprendere le scene visive, poiché le occlusioni si verificano frequentemente negli ambienti del mondo reale e rappresentano ostacoli per la comprensione spaziale. Per testare la capacità dei modelli di ragionare su più oggetti occlusi, introduciamo un nuovo compito, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), che richiede a un modello di contare oggetti disposti in un pattern inferendo come il pattern continua dietro un oclusore (un oggetto che blocca parti della scena). CAPTURe richiede sia il riconoscimento di pattern visivi che il ragionamento, rendendolo un banco di prova utile per valutare i modelli visione-linguaggio (VLMs) sulla loro comprensione dei pattern occlusi e sulle capacità di comprensione spaziale. Richiedendo ai modelli di ragionare su oggetti occlusi, CAPTURe testa anche la capacità dei VLMs di formare modelli del mondo che consentano loro di colmare le informazioni mancanti. CAPTURe è composto da due parti: (1) CAPTURe-real, con immagini filtrate manualmente di oggetti reali disposti in pattern, e (2) CAPTURe-synthetic, un test diagnostico controllato con immagini generate di pattern. Valutiamo quattro potenti VLMs (GPT-4o, Intern-VL2, Molmo e Qwen2-VL) su CAPTURe, riscontrando che i modelli faticano a contare sia su pattern occlusi che non occlusi. In particolare, troviamo che i modelli performano peggio con l'occlusione, suggerendo che i VLMs sono anche carenti nell'inferire relazioni spaziali non visibili: anche i VLMs più forti come GPT-4o falliscono nel contare con l'occlusione. Al contrario, troviamo che gli esseri umani commettono errori minimi su CAPTURe. Troviamo inoltre che fornire informazioni ausiliarie sulle posizioni degli oggetti occlusi migliora le prestazioni, sottolineando che l'errore del modello deriva sia dall'incapacità di gestire l'occlusione che dalla difficoltà di contare nelle immagini.
English
Recognizing and reasoning about occluded (partially or fully hidden) objects
is vital to understanding visual scenes, as occlusions frequently occur in
real-world environments and act as obstacles for spatial comprehension. To test
models' ability to reason about multiple occluded objects, we introduce a novel
task, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), which
requires a model to count objects arranged in a pattern by inferring how the
pattern continues behind an occluder (an object which blocks parts of the
scene). CAPTURe requires both recognizing visual patterns and reasoning, making
it a useful testbed for evaluating vision-language models (VLMs) on whether
they understand occluded patterns and possess spatial understanding skills. By
requiring models to reason about occluded objects, CAPTURe also tests VLMs'
ability to form world models that would allow them to fill in missing
information. CAPTURe consists of two parts: (1) CAPTURe-real, with manually
filtered images of real objects in patterns and (2) CAPTURe-synthetic, a
controlled diagnostic with generated patterned images. We evaluate four strong
VLMs (GPT-4o, Intern-VL2, Molmo, and Qwen2-VL) on CAPTURe, finding that models
struggle to count on both occluded and unoccluded patterns. Crucially, we find
that models perform worse with occlusion, suggesting that VLMs are also
deficient in inferring unseen spatial relationships: even the strongest VLMs
like GPT-4o fail to count with occlusion. In contrast, we find that humans
achieve very little error on CAPTURe. We also find that providing auxiliary
information of occluded object locations increases performance, underscoring
that the model error comes both from an inability to handle occlusion as well
as difficulty counting in images.Summary
AI-Generated Summary