Ref-Adv: Esplorazione del ragionamento visivo dei MLLM nei compiti di espressione referenziale

Abstract

La Comprensione delle Espressioni Referenziali (REC) collega il linguaggio alla percezione visiva a livello di regione. I benchmark standard (RefCOCO, RefCOCO+, RefCOCOg) hanno progredito rapidamente con i modelli linguistici multimodali, ma rimangono test deboli per il ragionamento visivo e il grounding: (i) molte espressioni sono molto brevi, lasciando poca richiesta di ragionamento; (ii) le immagini spesso contengono pochi elementi di disturbo, rendendo facile individuare il target; e (iii) descrittori ridondanti abilitano soluzioni scorciatoia che bypassano la genuina comprensione del testo e il ragionamento visivo. Introduciamo Ref-Adv, un benchmark REC moderno che sopprime le scorciatoie accoppiando espressioni linguisticamente non banali con solo le informazioni necessarie per identificare univocamente il target. Il dataset contiene espressioni referenziali su immagini reali, curate con elementi di disturbo difficili e annotate con aspetti di ragionamento inclusa la negazione. Eseguiamo ablazioni complete (perturbazioni dell'ordine delle parole e test di sufficienza tramite cancellazione di descrittori) per dimostrare che risolvere Ref-Adv richiede un ragionamento che va oltre semplici indizi, e valutiamo un'ampia gamma di modelli linguistici multimodali contemporanei su Ref-Adv. Nonostante i risultati solidi su RefCOCO, RefCOCO+ e RefCOCOg, le performance dei modelli calano marcatamente su Ref-Adv, rivelando una dipendenza da scorciatoie e lacune nel ragionamento visivo e nel grounding. Forniamo un'analisi approfondita degli errori e ci auguriamo che Ref-Adv guidi il lavoro futuro sul ragionamento visivo e il grounding nei MLLM.

English

Referring Expression Comprehension (REC) links language to region level visual perception. Standard benchmarks (RefCOCO, RefCOCO+, RefCOCOg) have progressed rapidly with multimodal LLMs but remain weak tests of visual reasoning and grounding: (i) many expressions are very short, leaving little reasoning demand; (ii) images often contain few distractors, making the target easy to find; and (iii) redundant descriptors enable shortcut solutions that bypass genuine text understanding and visual reasoning. We introduce Ref-Adv, a modern REC benchmark that suppresses shortcuts by pairing linguistically nontrivial expressions with only the information necessary to uniquely identify the target. The dataset contains referring expressions on real images, curated with hard distractors and annotated with reasoning facets including negation. We conduct comprehensive ablations (word order perturbations and descriptor deletion sufficiency) to show that solving Ref-Adv requires reasoning beyond simple cues, and we evaluate a broad suite of contemporary multimodal LLMs on Ref-Adv. Despite strong results on RefCOCO, RefCOCO+, and RefCOCOg, models drop markedly on Ref-Adv, revealing reliance on shortcuts and gaps in visual reasoning and grounding. We provide an in depth failure analysis and aim for Ref-Adv to guide future work on visual reasoning and grounding in MLLMs.

Ref-Adv: Esplorazione del ragionamento visivo dei MLLM nei compiti di espressione referenziale

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

Abstract

Support