CAPTURe : Évaluation du raisonnement spatial dans les modèles de vision et langage par le comptage d'objets occultés
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting
April 21, 2025
Auteurs: Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
cs.AI
Résumé
La reconnaissance et le raisonnement sur les objets occlus (partiellement ou totalement cachés) sont essentiels pour comprendre les scènes visuelles, car les occlusions se produisent fréquemment dans les environnements réels et constituent des obstacles à la compréhension spatiale. Pour tester la capacité des modèles à raisonner sur plusieurs objets occlus, nous introduisons une nouvelle tâche, **Counting Amodally for Patterns Through Unseen REgions (CAPTURe)**, qui exige qu'un modèle compte des objets disposés selon un motif en inférant comment ce motif se poursuit derrière un occlusseur (un objet qui bloque des parties de la scène). CAPTURe nécessite à la fois la reconnaissance de motifs visuels et un raisonnement, ce qui en fait un banc d'essai utile pour évaluer les modèles vision-langage (VLMs) sur leur compréhension des motifs occlus et leurs compétences en compréhension spatiale. En exigeant des modèles qu'ils raisonnent sur des objets occlus, CAPTURe teste également la capacité des VLMs à former des modèles du monde qui leur permettraient de combler les informations manquantes. CAPTURe se compose de deux parties : (1) **CAPTURe-real**, avec des images filtrées manuellement d'objets réels disposés en motifs, et (2) **CAPTURe-synthetic**, un diagnostic contrôlé avec des images générées de motifs. Nous évaluons quatre VLMs performants (GPT-4o, Intern-VL2, Molmo et Qwen2-VL) sur CAPTURe, constatant que les modèles ont des difficultés à compter à la fois sur des motifs occlus et non occlus. De manière cruciale, nous observons que les modèles performent moins bien avec des occlusions, suggérant que les VLMs sont également déficients dans l'inférence des relations spatiales invisibles : même les VLMs les plus performants comme GPT-4o échouent à compter en présence d'occlusions. En revanche, nous constatons que les humains commettent très peu d'erreurs sur CAPTURe. Nous observons également que fournir des informations auxiliaires sur les emplacements des objets occlus améliore les performances, soulignant que l'erreur des modèles provient à la fois d'une incapacité à gérer les occlusions et d'une difficulté à compter dans les images.
English
Recognizing and reasoning about occluded (partially or fully hidden) objects
is vital to understanding visual scenes, as occlusions frequently occur in
real-world environments and act as obstacles for spatial comprehension. To test
models' ability to reason about multiple occluded objects, we introduce a novel
task, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), which
requires a model to count objects arranged in a pattern by inferring how the
pattern continues behind an occluder (an object which blocks parts of the
scene). CAPTURe requires both recognizing visual patterns and reasoning, making
it a useful testbed for evaluating vision-language models (VLMs) on whether
they understand occluded patterns and possess spatial understanding skills. By
requiring models to reason about occluded objects, CAPTURe also tests VLMs'
ability to form world models that would allow them to fill in missing
information. CAPTURe consists of two parts: (1) CAPTURe-real, with manually
filtered images of real objects in patterns and (2) CAPTURe-synthetic, a
controlled diagnostic with generated patterned images. We evaluate four strong
VLMs (GPT-4o, Intern-VL2, Molmo, and Qwen2-VL) on CAPTURe, finding that models
struggle to count on both occluded and unoccluded patterns. Crucially, we find
that models perform worse with occlusion, suggesting that VLMs are also
deficient in inferring unseen spatial relationships: even the strongest VLMs
like GPT-4o fail to count with occlusion. In contrast, we find that humans
achieve very little error on CAPTURe. We also find that providing auxiliary
information of occluded object locations increases performance, underscoring
that the model error comes both from an inability to handle occlusion as well
as difficulty counting in images.Summary
AI-Generated Summary