Ref-Adv: Erforschung des visuellen Denkens von MLLM bei Referenzausdrucksaufgaben

Zusammenfassung

Die Referenzausdrucksverständnis (Referring Expression Comprehension, REC) verknüpft Sprache mit der visuellen Wahrnehmung auf Regionenebene. Standard-Benchmarks (RefCOCO, RefCOCO+, RefCOCOg) haben sich mit multimodalen LLMs zwar rasch weiterentwickelt, stellen jedoch nach wie vor schwache Tests für visuelles Reasoning und Grounding dar: (i) viele Ausdrücke sind sehr kurz und erfordern kaum Reasoning; (ii) Bilder enthalten oft wenige Ablenkobjekte, was die Zielfindung vereinfacht; und (iii) redundante Deskriptoren ermöglichen Abkürzungslösungen, die echtes Textverständnis und visuelles Reasoning umgehen. Wir stellen Ref-Adv vor, einen modernen REC-Benchmark, der Abkürzungen unterdrückt, indem er sprachlich anspruchsvolle Ausdrücke nur mit den zur eindeutigen Identifikation des Ziels notwendigen Informationen kombiniert. Der Datensatz enthält Referenzausdrücke für reale Bilder, die mit schwierigen Ablenkobjekten kuratiert und mit Reasoning-Aspekten wie Negation annotiert sind. Wir führen umfassende Ablationstudien (Wortstellungsvariationen und Deskriptor-Entfernungs-Tests) durch, um zu zeigen, dass das Lösen von Ref-Adv Reasoning über einfache Hinweise hinaus erfordert, und evaluieren eine breite Palette moderner multimodaler LLMs auf Ref-Adv. Trotz starker Ergebnisse auf RefCOCO, RefCOCO+ und RefCOCOg fallen die Modelle auf Ref-Adv deutlich ab, was ihre Abhängigkeit von Abkürzungen und Lücken im visuellen Reasoning und Grounding offenbart. Wir liefern eine detaillierte Fehleranalyse und möchten mit Ref-Adv zukünftige Arbeiten zu visuellem Reasoning und Grounding in MLLMs leiten.

English

Referring Expression Comprehension (REC) links language to region level visual perception. Standard benchmarks (RefCOCO, RefCOCO+, RefCOCOg) have progressed rapidly with multimodal LLMs but remain weak tests of visual reasoning and grounding: (i) many expressions are very short, leaving little reasoning demand; (ii) images often contain few distractors, making the target easy to find; and (iii) redundant descriptors enable shortcut solutions that bypass genuine text understanding and visual reasoning. We introduce Ref-Adv, a modern REC benchmark that suppresses shortcuts by pairing linguistically nontrivial expressions with only the information necessary to uniquely identify the target. The dataset contains referring expressions on real images, curated with hard distractors and annotated with reasoning facets including negation. We conduct comprehensive ablations (word order perturbations and descriptor deletion sufficiency) to show that solving Ref-Adv requires reasoning beyond simple cues, and we evaluate a broad suite of contemporary multimodal LLMs on Ref-Adv. Despite strong results on RefCOCO, RefCOCO+, and RefCOCOg, models drop markedly on Ref-Adv, revealing reliance on shortcuts and gaps in visual reasoning and grounding. We provide an in depth failure analysis and aim for Ref-Adv to guide future work on visual reasoning and grounding in MLLMs.

Ref-Adv: Erforschung des visuellen Denkens von MLLM bei Referenzausdrucksaufgaben

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

Zusammenfassung

Support