ChatPaper.aiChatPaper

GroundingME: Aufdeckung der Lücke in der visuellen Verankerung von MLLMs durch mehrdimensionale Evaluierung

GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

December 19, 2025
papers.authors: Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo
cs.AI

papers.abstract

Visuelles Grounding, das Lokalisieren von Objekten anhand natürlicher Sprachbeschreibungen, stellt eine entscheidende Brücke zwischen Sprach- und Bildverständnis dar. Während multimodale große Sprachmodelle (MLLMs) beeindruckende Ergebnisse auf bestehenden Benchmarks erzielen, bleibt eine grundlegende Frage offen: Können MLLMs Sprache wirklich auf menschenähnliche Weise visuell verankern oder betreiben sie lediglich Mustererkennung auf vereinfachten Datensätzen? Aktuelle Benchmarks erfassen nicht die Komplexität der realen Welt, in der Menschen mühelos mit mehrdeutigen Referenzen umgehen und erkennen, wenn eine Verankerung unmöglich ist. Um die wahren Fähigkeiten von MLLMs rigoros zu bewerten, stellen wir GroundingME vor, einen Benchmark, der Modelle systematisch in vier kritischen Dimensionen herausfordert: (1) Diskriminativ – Unterscheidung stark ähnlicher Objekte, (2) Räumlich – Verstehen komplexer relationaler Beschreibungen, (3) Limitiert – Umgang mit Verdeckungen oder winzigen Objekten und (4) Ablehnung – Erkennen von nicht verankerbaren Anfragen. Durch sorgfältige Kuratierung, die automatische Generierung mit menschlicher Verifikation kombiniert, schaffen wir 1.005 anspruchsvolle Beispiele, die die reale Komplexität widerspiegeln. Die Evaluation von 25 state-of-the-art MLLMs offenbart eine tiefe Fähigkeitslücke: Das beste Modell erreicht nur 45,1 % Genauigkeit, während die meisten bei Ablehnungsaufgaben 0 % erzielen und reflexiv Objekte halluzinieren, anstatt deren Abwesenheit einzuräumen – was ernste Sicherheitsbedenken für den Einsatz aufwirft. Wir untersuchen zwei Verbesserungsstrategien: (1) Test-Time-Scaling wählt die optimale Antwort durch Denk-Trajektorien aus und verbessert komplexes Grounding um bis zu 2,9 %, und (2) Data-Mixture-Training lehrt Modelle, nicht verankerbare Anfragen zu erkennen, und steigert die Ablehnungsgenauigkeit von 0 % auf 27,9 %. GroundingME dient somit sowohl als Diagnosewerkzeug, das aktuelle Grenzen von MLLMs aufzeigt, als auch als Fahrplan hin zu menschenähnlichem visuellen Grounding.
English
Visual grounding, localizing objects from natural language descriptions, represents a critical bridge between language and vision understanding. While multimodal large language models (MLLMs) achieve impressive scores on existing benchmarks, a fundamental question remains: can MLLMs truly ground language in vision with human-like sophistication, or are they merely pattern-matching on simplified datasets? Current benchmarks fail to capture real-world complexity where humans effortlessly navigate ambiguous references and recognize when grounding is impossible. To rigorously assess MLLMs' true capabilities, we introduce GroundingME, a benchmark that systematically challenges models across four critical dimensions: (1) Discriminative, distinguishing highly similar objects, (2) Spatial, understanding complex relational descriptions, (3) Limited, handling occlusions or tiny objects, and (4) Rejection, recognizing ungroundable queries. Through careful curation combining automated generation with human verification, we create 1,005 challenging examples mirroring real-world complexity. Evaluating 25 state-of-the-art MLLMs reveals a profound capability gap: the best model achieves only 45.1% accuracy, while most score 0% on rejection tasks, reflexively hallucinating objects rather than acknowledging their absence, raising critical safety concerns for deployment. We explore two strategies for improvements: (1) test-time scaling selects optimal response by thinking trajectory to improve complex grounding by up to 2.9%, and (2) data-mixture training teaches models to recognize ungroundable queries, boosting rejection accuracy from 0% to 27.9%. GroundingME thus serves as both a diagnostic tool revealing current limitations in MLLMs and a roadmap toward human-level visual grounding.
PDF142December 23, 2025