ChatPaper.aiChatPaper

CAPTURe: Evaluación del razonamiento espacial en modelos de lenguaje visual mediante el conteo de objetos ocluidos

CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting

April 21, 2025
Autores: Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
cs.AI

Resumen

Reconocer y razonar sobre objetos ocluidos (parcial o totalmente ocultos) es fundamental para comprender escenas visuales, ya que las oclusiones ocurren frecuentemente en entornos del mundo real y actúan como obstáculos para la comprensión espacial. Para evaluar la capacidad de los modelos para razonar sobre múltiples objetos ocluidos, presentamos una nueva tarea: Contar Amodalmente Patrones a través de Regiones No Vistas (CAPTURe, por sus siglas en inglés), que requiere que un modelo cuente objetos dispuestos en un patrón al inferir cómo este continúa detrás de un oclusor (un objeto que bloquea partes de la escena). CAPTURe exige tanto el reconocimiento de patrones visuales como el razonamiento, convirtiéndola en una herramienta útil para evaluar modelos de visión y lenguaje (VLMs) en cuanto a su comprensión de patrones ocluidos y habilidades de entendimiento espacial. Al requerir que los modelos razonen sobre objetos ocluidos, CAPTURe también evalúa la capacidad de los VLMs para formar modelos del mundo que les permitan completar información faltante. CAPTURe consta de dos partes: (1) CAPTURe-real, con imágenes filtradas manualmente de objetos reales en patrones, y (2) CAPTURe-sintético, un diagnóstico controlado con imágenes generadas de patrones. Evaluamos cuatro VLMs robustos (GPT-4o, Intern-VL2, Molmo y Qwen2-VL) en CAPTURe, encontrando que los modelos tienen dificultades para contar tanto en patrones ocluidos como no ocluidos. Es crucial destacar que los modelos tienen un peor desempeño con oclusiones, lo que sugiere que los VLMs también son deficientes en inferir relaciones espaciales no vistas: incluso los VLMs más fuertes, como GPT-4o, fallan al contar con oclusiones. En contraste, encontramos que los humanos cometen muy pocos errores en CAPTURe. También observamos que proporcionar información auxiliar sobre las ubicaciones de los objetos ocluidos mejora el rendimiento, subrayando que el error del modelo proviene tanto de la incapacidad para manejar oclusiones como de la dificultad para contar en imágenes.
English
Recognizing and reasoning about occluded (partially or fully hidden) objects is vital to understanding visual scenes, as occlusions frequently occur in real-world environments and act as obstacles for spatial comprehension. To test models' ability to reason about multiple occluded objects, we introduce a novel task, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), which requires a model to count objects arranged in a pattern by inferring how the pattern continues behind an occluder (an object which blocks parts of the scene). CAPTURe requires both recognizing visual patterns and reasoning, making it a useful testbed for evaluating vision-language models (VLMs) on whether they understand occluded patterns and possess spatial understanding skills. By requiring models to reason about occluded objects, CAPTURe also tests VLMs' ability to form world models that would allow them to fill in missing information. CAPTURe consists of two parts: (1) CAPTURe-real, with manually filtered images of real objects in patterns and (2) CAPTURe-synthetic, a controlled diagnostic with generated patterned images. We evaluate four strong VLMs (GPT-4o, Intern-VL2, Molmo, and Qwen2-VL) on CAPTURe, finding that models struggle to count on both occluded and unoccluded patterns. Crucially, we find that models perform worse with occlusion, suggesting that VLMs are also deficient in inferring unseen spatial relationships: even the strongest VLMs like GPT-4o fail to count with occlusion. In contrast, we find that humans achieve very little error on CAPTURe. We also find that providing auxiliary information of occluded object locations increases performance, underscoring that the model error comes both from an inability to handle occlusion as well as difficulty counting in images.

Summary

AI-Generated Summary

PDF52April 23, 2025