Ref-Adv: Explorando o Raciocínio Visual de MLLM em Tarefas de Expressão Referencial
Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks
February 27, 2026
Autores: Qihua Dong, Kuo Yang, Lin Ju, Handong Zhao, Yitian Zhang, Yizhou Wang, Huimin Zeng, Jianglin Lu, Yun Fu
cs.AI
Resumo
A Compreensão de Expressões Referenciais (REC, na sigla em inglês) conecta a linguagem à percepção visual a nível regional. Os benchmarks padrão (RefCOCO, RefCOCO+, RefCOCOg) progrediram rapidamente com os LLMs multimodais, mas continuam sendo testes fracos de raciocínio visual e grounding: (i) muitas expressões são muito curtas, deixando pouca demanda de raciocínio; (ii) as imagens frequentemente contêm poucos elementos distractores, tornando o alvo fácil de encontrar; e (iii) descritores redundantes permitem soluções por atalhos que contornam a genuína compreensão textual e o raciocínio visual. Apresentamos o Ref-Adv, um benchmark moderno de REC que suprime atalhos ao emparelhar expressões linguisticamente não triviais apenas com a informação necessária para identificar o alvo de forma única. O conjunto de dados contém expressões referenciais em imagens reais, curadas com distractores difíceis e anotadas com facetas de raciocínio, incluindo a negação. Realizamos ablações abrangentes (perturbações na ordem das palavras e suficiência da deleção de descritores) para mostrar que resolver o Ref-Adv exige raciocínio além de pistas simples, e avaliamos uma ampla gama de LLMs multimodais contemporâneos no Ref-Adv. Apesar de resultados sólidos no RefCOCO, RefCOCO+ e RefCOCOg, os modelos têm uma queda acentuada no Ref-Adv, revelando dependência de atalhos e lacunas no raciocínio visual e grounding. Fornecemos uma análise detalhada de falhas e visamos que o Ref-Adv oriente trabalhos futuros sobre raciocínio visual e grounding em MLLMs.
English
Referring Expression Comprehension (REC) links language to region level visual perception. Standard benchmarks (RefCOCO, RefCOCO+, RefCOCOg) have progressed rapidly with multimodal LLMs but remain weak tests of visual reasoning and grounding: (i) many expressions are very short, leaving little reasoning demand; (ii) images often contain few distractors, making the target easy to find; and (iii) redundant descriptors enable shortcut solutions that bypass genuine text understanding and visual reasoning. We introduce Ref-Adv, a modern REC benchmark that suppresses shortcuts by pairing linguistically nontrivial expressions with only the information necessary to uniquely identify the target. The dataset contains referring expressions on real images, curated with hard distractors and annotated with reasoning facets including negation. We conduct comprehensive ablations (word order perturbations and descriptor deletion sufficiency) to show that solving Ref-Adv requires reasoning beyond simple cues, and we evaluate a broad suite of contemporary multimodal LLMs on Ref-Adv. Despite strong results on RefCOCO, RefCOCO+, and RefCOCOg, models drop markedly on Ref-Adv, revealing reliance on shortcuts and gaps in visual reasoning and grounding. We provide an in depth failure analysis and aim for Ref-Adv to guide future work on visual reasoning and grounding in MLLMs.