ChatPaper.aiChatPaper

GroundingME: Svelare il Divario di Grounding Visivo nei MLLM attraverso una Valutazione Multi-Dimensionale

GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

December 19, 2025
Autori: Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo
cs.AI

Abstract

Il grounding visivo, che consiste nel localizzare oggetti a partire da descrizioni in linguaggio naturale, rappresenta un ponte cruciale tra la comprensione del linguaggio e quella visiva. Sebbene i modelli linguistici multimodali di grandi dimensioni (MLLM) raggiungano punteggi impressionanti sui benchmark esistenti, rimane una domanda fondamentale: gli MLLM possono veramente ancorare il linguaggio alla visione con la sofisticatezza umana, o si limitano a riconoscere pattern su dataset semplificati? Gli attuali benchmark non catturano la complessità del mondo reale, in cui gli esseri umani navigano senza sforzo tra riferimenti ambigui e riconoscono quando il grounding è impossibile. Per valutare rigorosamente le vere capacità degli MLLM, introduciamo GroundingME, un benchmark che mette sistematicamente alla prova i modelli lungo quattro dimensioni critiche: (1) Discriminativa, distinguere oggetti molto simili, (2) Spaziale, comprendere descrizioni relazionali complesse, (3) Limitata, gestire occlusioni o oggetti minuscoli, e (4) Rifiuto, riconoscere query non ancorabili. Attraverso una curatela attenta che combina generazione automatizzata e verifica umana, creiamo 1.005 esempi impegnativi che rispecchiano la complessità del mondo reale. La valutazione di 25 MLLM all'avanguardia rivela un profondo divario di capacità: il modello migliore raggiunge solo il 45,1% di accuratezza, mentre la maggior parte ottiene lo 0% sui task di rifiuto, allucinando riflessivamente oggetti invece di riconoscerne l'assenza, sollevando serie preoccupazioni sulla sicurezza per il deployment. Esploriamo due strategie di miglioramento: (1) lo scaling al test-time seleziona la risposta ottimale tramite la traiettoria di pensiero, migliorando il grounding complesso fino al 2,9%, e (2) l'addestramento con mistura di dati insegna ai modelli a riconoscere query non ancorabili, aumentando l'accuratezza di rifiuto dallo 0% al 27,9%. GroundingME funge quindi sia da strumento diagnostico che rivela le limitazioni attuali degli MLLM, sia da roadmap verso un grounding visivo di livello umano.
English
Visual grounding, localizing objects from natural language descriptions, represents a critical bridge between language and vision understanding. While multimodal large language models (MLLMs) achieve impressive scores on existing benchmarks, a fundamental question remains: can MLLMs truly ground language in vision with human-like sophistication, or are they merely pattern-matching on simplified datasets? Current benchmarks fail to capture real-world complexity where humans effortlessly navigate ambiguous references and recognize when grounding is impossible. To rigorously assess MLLMs' true capabilities, we introduce GroundingME, a benchmark that systematically challenges models across four critical dimensions: (1) Discriminative, distinguishing highly similar objects, (2) Spatial, understanding complex relational descriptions, (3) Limited, handling occlusions or tiny objects, and (4) Rejection, recognizing ungroundable queries. Through careful curation combining automated generation with human verification, we create 1,005 challenging examples mirroring real-world complexity. Evaluating 25 state-of-the-art MLLMs reveals a profound capability gap: the best model achieves only 45.1% accuracy, while most score 0% on rejection tasks, reflexively hallucinating objects rather than acknowledging their absence, raising critical safety concerns for deployment. We explore two strategies for improvements: (1) test-time scaling selects optimal response by thinking trajectory to improve complex grounding by up to 2.9%, and (2) data-mixture training teaches models to recognize ungroundable queries, boosting rejection accuracy from 0% to 27.9%. GroundingME thus serves as both a diagnostic tool revealing current limitations in MLLMs and a roadmap toward human-level visual grounding.
PDF142December 23, 2025