Ref-Adv: Исследование визуального мышления MLLM в задачах референциальных выражений

Аннотация

Задача понимания референтных выражений (Referring Expression Comprehension, REC) связывает язык с визуальным восприятием на уровне регионов. Стандартные бенчмарки (RefCOCO, RefCOCO+, RefCOCOg) быстро прогрессируют с появлением мультимодальных больших языковых моделей (LLM), но остаются слабыми тестами визуального мышления и привязки к реальности: (i) многие выражения очень короткие, что не требует сложных рассуждений; (ii) изображения часто содержат мало объектов-отвлекателей, что упрощает поиск цели; и (iii) избыточные дескрипторы позволяют использовать обходные решения, минуя подлинное понимание текста и визуальное рассуждение. Мы представляем Ref-Adv — современный бенчмарк для REC, который подавляет обходные пути за счет сочетания лингвистически нетривиальных выражений только с информацией, необходимой для однозначной идентификации цели. Набор данных содержит референтные выражения для реальных изображений, отобранных со сложными объектами-отвлекателями и аннотированных с учетом аспектов рассуждений, включая отрицание. Мы проводим всесторонние абляции (перестановки порядка слов и проверку достаточности удаления дескрипторов), чтобы показать, что решение Ref-Adv требует рассуждений, выходящих за рамки простых сигналов, и оцениваем широкий спектр современных мультимодальных LLM на Ref-Adv. Несмотря на высокие результаты на RefCOCO, RefCOCO+ и RefCOCOg, модели демонстрируют значительное снижение производительности на Ref-Adv, что выявляет их зависимость от обходных путей и пробелы в визуальном мышлении и привязке к реальности. Мы предоставляем детальный анализ ошибок и стремимся к тому, чтобы Ref-Adv направлял будущие работы в области визуального мышления и привязки к реальности в мультимодальных LLM.

English

Referring Expression Comprehension (REC) links language to region level visual perception. Standard benchmarks (RefCOCO, RefCOCO+, RefCOCOg) have progressed rapidly with multimodal LLMs but remain weak tests of visual reasoning and grounding: (i) many expressions are very short, leaving little reasoning demand; (ii) images often contain few distractors, making the target easy to find; and (iii) redundant descriptors enable shortcut solutions that bypass genuine text understanding and visual reasoning. We introduce Ref-Adv, a modern REC benchmark that suppresses shortcuts by pairing linguistically nontrivial expressions with only the information necessary to uniquely identify the target. The dataset contains referring expressions on real images, curated with hard distractors and annotated with reasoning facets including negation. We conduct comprehensive ablations (word order perturbations and descriptor deletion sufficiency) to show that solving Ref-Adv requires reasoning beyond simple cues, and we evaluate a broad suite of contemporary multimodal LLMs on Ref-Adv. Despite strong results on RefCOCO, RefCOCO+, and RefCOCOg, models drop markedly on Ref-Adv, revealing reliance on shortcuts and gaps in visual reasoning and grounding. We provide an in depth failure analysis and aim for Ref-Adv to guide future work on visual reasoning and grounding in MLLMs.

Ref-Adv: Исследование визуального мышления MLLM в задачах референциальных выражений

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

Аннотация

Support