CAPTURe: Avaliação do Raciocínio Espacial em Modelos de Linguagem Visual por meio da Contagem de Objetos Ocluídos
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting
April 21, 2025
Autores: Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
cs.AI
Resumo
Reconhecer e raciocinar sobre objetos ocluídos (parcial ou totalmente ocultos) é fundamental para a compreensão de cenas visuais, já que oclusões ocorrem frequentemente em ambientes do mundo real e atuam como obstáculos para a compreensão espacial. Para testar a capacidade dos modelos de raciocinar sobre múltiplos objetos ocluídos, introduzimos uma nova tarefa, Contagem Amodal para Padrões Através de Regiões Não Vistas (CAPTURe), que exige que um modelo conte objetos organizados em um padrão, inferindo como o padrão continua por trás de um oclusor (um objeto que bloqueia partes da cena). O CAPTURe requer tanto o reconhecimento de padrões visuais quanto o raciocínio, tornando-o um teste útil para avaliar modelos de visão e linguagem (VLMs) quanto à sua compreensão de padrões ocluídos e habilidades de entendimento espacial. Ao exigir que os modelos raciocinem sobre objetos ocluídos, o CAPTURe também testa a capacidade dos VLMs de formar modelos do mundo que lhes permitam preencher informações ausentes. O CAPTURe consiste em duas partes: (1) CAPTURe-real, com imagens manualmente filtradas de objetos reais em padrões, e (2) CAPTURe-sintético, um diagnóstico controlado com imagens de padrões geradas. Avaliamos quatro VLMs robustos (GPT-4o, Intern-VL2, Molmo e Qwen2-VL) no CAPTURe, constatando que os modelos têm dificuldade em contar tanto em padrões ocluídos quanto não ocluídos. Crucialmente, observamos que os modelos têm desempenho pior com oclusão, sugerindo que os VLMs também são deficientes em inferir relações espaciais não vistas: até mesmo os VLMs mais fortes, como o GPT-4o, falham em contar com oclusão. Em contraste, constatamos que os humanos cometem muito pouco erro no CAPTURe. Também descobrimos que fornecer informações auxiliares sobre as localizações dos objetos ocluídos aumenta o desempenho, destacando que o erro do modelo vem tanto da incapacidade de lidar com oclusão quanto da dificuldade de contar em imagens.
English
Recognizing and reasoning about occluded (partially or fully hidden) objects
is vital to understanding visual scenes, as occlusions frequently occur in
real-world environments and act as obstacles for spatial comprehension. To test
models' ability to reason about multiple occluded objects, we introduce a novel
task, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), which
requires a model to count objects arranged in a pattern by inferring how the
pattern continues behind an occluder (an object which blocks parts of the
scene). CAPTURe requires both recognizing visual patterns and reasoning, making
it a useful testbed for evaluating vision-language models (VLMs) on whether
they understand occluded patterns and possess spatial understanding skills. By
requiring models to reason about occluded objects, CAPTURe also tests VLMs'
ability to form world models that would allow them to fill in missing
information. CAPTURe consists of two parts: (1) CAPTURe-real, with manually
filtered images of real objects in patterns and (2) CAPTURe-synthetic, a
controlled diagnostic with generated patterned images. We evaluate four strong
VLMs (GPT-4o, Intern-VL2, Molmo, and Qwen2-VL) on CAPTURe, finding that models
struggle to count on both occluded and unoccluded patterns. Crucially, we find
that models perform worse with occlusion, suggesting that VLMs are also
deficient in inferring unseen spatial relationships: even the strongest VLMs
like GPT-4o fail to count with occlusion. In contrast, we find that humans
achieve very little error on CAPTURe. We also find that providing auxiliary
information of occluded object locations increases performance, underscoring
that the model error comes both from an inability to handle occlusion as well
as difficulty counting in images.Summary
AI-Generated Summary