Ref-Adv: Exploración del Razonamiento Visual en MLLM para Tareas de Expresión Referencial

Resumen

La Comprensión de Expresiones de Referencia (REC, por sus siglas en inglés) conecta el lenguaje con la percepción visual a nivel regional. Los puntos de referencia estándar (RefCOCO, RefCOCO+, RefCOCOg) han progresado rápidamente con los LLM multimodales, pero siguen siendo pruebas débiles de razonamiento visual y grounding: (i) muchas expresiones son muy cortas, lo que deja poca demanda de razonamiento; (ii) las imágenes a menudo contienen pocos elementos distractores, lo que facilita encontrar el objetivo; y (iii) los descriptores redundantes permiten soluciones por atajos que eluden la genuina comprensión del texto y el razonamiento visual. Presentamos Ref-Adv, un benchmark moderno de REC que suprime los atajos emparejando expresiones lingüísticamente no triviales con solo la información necesaria para identificar de forma única el objetivo. El conjunto de datos contiene expresiones de referencia en imágenes reales, curadas con distractores difíciles y anotadas con facetas de razonamiento que incluyen la negación. Realizamos ablaciones exhaustivas (perturbaciones del orden de las palabras y suficiencia de eliminación de descriptores) para demostrar que resolver Ref-Adv requiere un razonamiento que va más allá de las pistas simples, y evaluamos una amplia gama de LLM multimodales contemporáneos en Ref-Adv. A pesar de los sólidos resultados en RefCOCO, RefCOCO+ y RefCOCOg, los modelos caen notablemente en Ref-Adv, revelando una dependencia de atajos y lagunas en el razonamiento visual y el grounding. Proporcionamos un análisis en profundidad de los fallos y nuestro objetivo es que Ref-Adv guíe el trabajo futuro en razonamiento visual y grounding en los MLLM.

English

Referring Expression Comprehension (REC) links language to region level visual perception. Standard benchmarks (RefCOCO, RefCOCO+, RefCOCOg) have progressed rapidly with multimodal LLMs but remain weak tests of visual reasoning and grounding: (i) many expressions are very short, leaving little reasoning demand; (ii) images often contain few distractors, making the target easy to find; and (iii) redundant descriptors enable shortcut solutions that bypass genuine text understanding and visual reasoning. We introduce Ref-Adv, a modern REC benchmark that suppresses shortcuts by pairing linguistically nontrivial expressions with only the information necessary to uniquely identify the target. The dataset contains referring expressions on real images, curated with hard distractors and annotated with reasoning facets including negation. We conduct comprehensive ablations (word order perturbations and descriptor deletion sufficiency) to show that solving Ref-Adv requires reasoning beyond simple cues, and we evaluate a broad suite of contemporary multimodal LLMs on Ref-Adv. Despite strong results on RefCOCO, RefCOCO+, and RefCOCOg, models drop markedly on Ref-Adv, revealing reliance on shortcuts and gaps in visual reasoning and grounding. We provide an in depth failure analysis and aim for Ref-Adv to guide future work on visual reasoning and grounding in MLLMs.

Ref-Adv: Exploración del Razonamiento Visual en MLLM para Tareas de Expresión Referencial

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

Resumen

Support