Ref-Adv : Exploration du raisonnement visuel des MLLM dans les tâches d'expressions référentielles

Résumé

La compréhension d'expressions référentielles (REC) relie le langage à la perception visuelle au niveau régional. Les benchmarks standards (RefCOCO, RefCOCO+, RefCOCOg) ont progressé rapidement avec les LLMs multimodaux mais constituent toujours des tests faibles en raisonnement visuel et ancrage : (i) de nombreuses expressions sont très courtes, laissant peu de demande de raisonnement ; (ii) les images contiennent souvent peu de distracteurs, rendant la cible facile à trouver ; et (iii) les descripteurs redondants permettent des solutions de contournement qui évitent une compréhension textuelle et un raisonnement visuel authentiques. Nous présentons Ref-Adv, un benchmark REC moderne qui supprime les raccourcis en associant des expressions linguistiquement non triviales à uniquement les informations nécessaires pour identifier de manière unique la cible. Le jeu de données contient des expressions référentielles sur des images réelles, organisées avec des distracteurs difficiles et annotées avec des facettes de raisonnement incluant la négation. Nous menons des ablations complètes (perturbations de l'ordre des mots et suffisance de la suppression des descripteurs) pour montrer que résoudre Ref-Adv nécessite un raisonnement au-delà des indices simples, et nous évaluons une large gamme de LLMs multimodaux contemporains sur Ref-Adv. Malgré des résultats solides sur RefCOCO, RefCOCO+ et RefCOCOg, les performances des modèles chutent nettement sur Ref-Adv, révélant une dépendance aux raccourcis et des lacunes dans le raisonnement visuel et l'ancrage. Nous fournissons une analyse approfondie des échecs et visons à ce que Ref-Adv guide les travaux futurs sur le raisonnement visuel et l'ancrage dans les MLLMs.

English

Referring Expression Comprehension (REC) links language to region level visual perception. Standard benchmarks (RefCOCO, RefCOCO+, RefCOCOg) have progressed rapidly with multimodal LLMs but remain weak tests of visual reasoning and grounding: (i) many expressions are very short, leaving little reasoning demand; (ii) images often contain few distractors, making the target easy to find; and (iii) redundant descriptors enable shortcut solutions that bypass genuine text understanding and visual reasoning. We introduce Ref-Adv, a modern REC benchmark that suppresses shortcuts by pairing linguistically nontrivial expressions with only the information necessary to uniquely identify the target. The dataset contains referring expressions on real images, curated with hard distractors and annotated with reasoning facets including negation. We conduct comprehensive ablations (word order perturbations and descriptor deletion sufficiency) to show that solving Ref-Adv requires reasoning beyond simple cues, and we evaluate a broad suite of contemporary multimodal LLMs on Ref-Adv. Despite strong results on RefCOCO, RefCOCO+, and RefCOCOg, models drop markedly on Ref-Adv, revealing reliance on shortcuts and gaps in visual reasoning and grounding. We provide an in depth failure analysis and aim for Ref-Adv to guide future work on visual reasoning and grounding in MLLMs.

Ref-Adv : Exploration du raisonnement visuel des MLLM dans les tâches d'expressions référentielles

Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

Résumé

Support