Ref-Adv: Verkenning van visueel redeneren met MLLM's in verwijzende-expressietaken

Samenvatting

Referentie-uitdrukkingbegrip (REC) verbindt taal met visuele waarneming op regioniveau. Standaardbenchmarks (RefCOCO, RefCOCO+, RefCOCOg) hebben een snelle vooruitgang geboekt met multimodale LLM's, maar blijven zwakke tests van visueel redeneren en gronding: (i) veel uitdrukkingen zijn zeer kort, waardoor er weinig redeneervraag is; (ii) afbeeldingen bevatten vaak weinig afleidende elementen, waardoor het doelwit gemakkelijk te vinden is; en (iii) overbodige beschrijvers maken kortsluitoplossingen mogelijk die echt tekstbegrip en visueel redeneren omzeilen. Wij introduceren Ref-Adv, een moderne REC-benchmark die kortsluitingen onderdrukt door linguïstisch niet-triviale uitdrukkingen te koppelen aan alleen de informatie die nodig is om het doelwit uniek te identificeren. De dataset bevat refererende uitdrukkingen bij echte afbeeldingen, samengesteld met lastige afleidende elementen en geannoteerd met redeneeraspecten zoals ontkenning. Wij voeren uitgebreide ablatiestudies uit (woordvolgordeverstoringen en toereikendheid van beschrijververwijdering) om aan te tonen dat het oplossen van Ref-Adv redeneren vereist dat verder gaat dan eenvoudige signalen, en wij evalueren een brede reeks hedendaagse multimodale LLM's op Ref-Adv. Ondanks sterke resultaten op RefCOCO, RefCOCO+ en RefCOCOg, presteren modellen aanzienlijk slechter op Ref-Adv, wat een afhankelijkheid van kortsluitingen en hiaten in visueel redeneren en gronding aan het licht brengt. Wij bieden een gedetailleerde foutenanalyse en streven ernaar dat Ref-Adv toekomstig werk aan visueel redeneren en gronding in MLLM's kan sturen.

English

Referring Expression Comprehension (REC) links language to region level visual perception. Standard benchmarks (RefCOCO, RefCOCO+, RefCOCOg) have progressed rapidly with multimodal LLMs but remain weak tests of visual reasoning and grounding: (i) many expressions are very short, leaving little reasoning demand; (ii) images often contain few distractors, making the target easy to find; and (iii) redundant descriptors enable shortcut solutions that bypass genuine text understanding and visual reasoning. We introduce Ref-Adv, a modern REC benchmark that suppresses shortcuts by pairing linguistically nontrivial expressions with only the information necessary to uniquely identify the target. The dataset contains referring expressions on real images, curated with hard distractors and annotated with reasoning facets including negation. We conduct comprehensive ablations (word order perturbations and descriptor deletion sufficiency) to show that solving Ref-Adv requires reasoning beyond simple cues, and we evaluate a broad suite of contemporary multimodal LLMs on Ref-Adv. Despite strong results on RefCOCO, RefCOCO+, and RefCOCOg, models drop markedly on Ref-Adv, revealing reliance on shortcuts and gaps in visual reasoning and grounding. We provide an in depth failure analysis and aim for Ref-Adv to guide future work on visual reasoning and grounding in MLLMs.

Ref-Adv: Verkenning van visueel redeneren met MLLM's in verwijzende-expressietaken

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

Samenvatting

Support