CAPTURe: Оценка пространственного мышления в моделях обработки визуальной информации и языка через подсчёт скрытых объектов
CAPTURe: Evaluating Spatial Reasoning in Vision Language Models via Occluded Object Counting
April 21, 2025
Авторы: Atin Pothiraj, Elias Stengel-Eskin, Jaemin Cho, Mohit Bansal
cs.AI
Аннотация
Распознавание и рассуждение о скрытых (частично или полностью) объектах имеет решающее значение для понимания визуальных сцен, поскольку окклюзии часто встречаются в реальных условиях и выступают препятствиями для пространственного восприятия. Чтобы проверить способность моделей рассуждать о множестве скрытых объектов, мы представляем новую задачу — Counting Amodally for Patterns Through Unseen REgions (CAPTURe), которая требует от модели подсчёта объектов, расположенных в определённом порядке, путём вывода того, как этот порядок продолжается за окклюдером (объектом, который блокирует части сцены). CAPTURe требует как распознавания визуальных паттернов, так и логического рассуждения, что делает её полезным инструментом для оценки моделей, работающих с визуальными и языковыми данными (VLMs), на предмет их способности понимать скрытые паттерны и обладать навыками пространственного понимания. Требуя от моделей рассуждать о скрытых объектах, CAPTURe также проверяет их способность формировать модели мира, которые позволили бы им восполнять недостающую информацию. CAPTURe состоит из двух частей: (1) CAPTURe-real, содержащего вручную отобранные изображения реальных объектов в паттернах, и (2) CAPTURe-synthetic, контролируемого диагностического теста с генерированными изображениями паттернов. Мы оцениваем четыре мощные VLMs (GPT-4o, Intern-VL2, Molmo и Qwen2-VL) на CAPTURe и обнаруживаем, что модели испытывают трудности с подсчётом как на скрытых, так и на нескрытых паттернах. Важно отметить, что модели показывают худшие результаты при наличии окклюзии, что свидетельствует о недостатке VLMs в выводе скрытых пространственных отношений: даже самые сильные модели, такие как GPT-4o, не справляются с подсчётом при окклюзии. В отличие от этого, люди демонстрируют минимальные ошибки на CAPTURe. Мы также обнаруживаем, что предоставление дополнительной информации о местоположении скрытых объектов повышает производительность моделей, подчёркивая, что ошибки моделей связаны как с неспособностью справляться с окклюзией, так и с трудностями подсчёта объектов на изображениях.
English
Recognizing and reasoning about occluded (partially or fully hidden) objects
is vital to understanding visual scenes, as occlusions frequently occur in
real-world environments and act as obstacles for spatial comprehension. To test
models' ability to reason about multiple occluded objects, we introduce a novel
task, Counting Amodally for Patterns Through Unseen REgions (CAPTURe), which
requires a model to count objects arranged in a pattern by inferring how the
pattern continues behind an occluder (an object which blocks parts of the
scene). CAPTURe requires both recognizing visual patterns and reasoning, making
it a useful testbed for evaluating vision-language models (VLMs) on whether
they understand occluded patterns and possess spatial understanding skills. By
requiring models to reason about occluded objects, CAPTURe also tests VLMs'
ability to form world models that would allow them to fill in missing
information. CAPTURe consists of two parts: (1) CAPTURe-real, with manually
filtered images of real objects in patterns and (2) CAPTURe-synthetic, a
controlled diagnostic with generated patterned images. We evaluate four strong
VLMs (GPT-4o, Intern-VL2, Molmo, and Qwen2-VL) on CAPTURe, finding that models
struggle to count on both occluded and unoccluded patterns. Crucially, we find
that models perform worse with occlusion, suggesting that VLMs are also
deficient in inferring unseen spatial relationships: even the strongest VLMs
like GPT-4o fail to count with occlusion. In contrast, we find that humans
achieve very little error on CAPTURe. We also find that providing auxiliary
information of occluded object locations increases performance, underscoring
that the model error comes both from an inability to handle occlusion as well
as difficulty counting in images.Summary
AI-Generated Summary