ChatPaper.aiChatPaper

GroundingME: Het Visual Grounding-gat in MLLMs blootleggen via multi-dimensionele evaluatie

GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

December 19, 2025
Auteurs: Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo
cs.AI

Samenvatting

Visuele grounding, het lokaliseren van objecten aan de hand van natuurlijke taal beschrijvingen, vormt een cruciale brug tussen taal- en visueel begrip. Hoewel multimodale grote taalmodellen (MLLM's) indrukwekkende scores behalen op bestaande benchmarks, blijft een fundamentele vraag onbeantwoord: kunnen MLLM's taal daadwerkelijk op een menselijk verfijnde manier in beelden verankeren, of matchen ze slechts patronen in vereenvoudigde datasets? Huidige benchmarks vangen de complexiteit van de echte wereld niet, waarin mensen moeiteloos omgaan met dubbelzinnige verwijzingen en herkennen wanneer grounding onmogelijk is. Om de werkelijke capaciteiten van MLLM's rigoureus te beoordelen, introduceren we GroundingME, een benchmark die modellen systematisch uitdaagt op vier kritieke dimensies: (1) Discriminatief: onderscheiden van sterk gelijkende objecten, (2) Spatieel: begrijpen van complexe relationele beschrijvingen, (3) Beperkt: omgaan met occlusies of minuscule objecten, en (4) Afwijzing: herkennen van niet-grondbare queries. Door zorgvuldige samenstelling, combinatie van automatische generatie en menselijke verificatie, creëren we 1.005 uitdagende voorbeelden die de complexiteit van de echte wereld weerspiegelen. Evaluatie van 25 state-of-the-art MLLM's onthult een diepgaande kloof in capaciteit: het beste model behaalt slechts 45,1% nauwkeurigheid, terwijl de meeste 0% scoren op afwijzingstaken, waarbij ze reflexief objecten hallucineren in plaats van hun afwezigheid te erkennen. Dit werpt kritieke veiligheidsvragen op voor implementatie. We onderzoeken twee verbeterstrategieën: (1) test-time scaling selecteert de optimale respons door denk trajecten te gebruiken, wat complexe grounding met tot 2,9% verbetert, en (2) data-mixture training leert modellen niet-grondbare queries te herkennen, wat de afwijzingsnauwkeurigheid van 0% naar 27,9% verhoogt. GroundingME dient zo zowel als diagnostisch instrument dat huidige beperkingen in MLLM's blootlegt, als als routekaart naar visuele grounding op menselijk niveau.
English
Visual grounding, localizing objects from natural language descriptions, represents a critical bridge between language and vision understanding. While multimodal large language models (MLLMs) achieve impressive scores on existing benchmarks, a fundamental question remains: can MLLMs truly ground language in vision with human-like sophistication, or are they merely pattern-matching on simplified datasets? Current benchmarks fail to capture real-world complexity where humans effortlessly navigate ambiguous references and recognize when grounding is impossible. To rigorously assess MLLMs' true capabilities, we introduce GroundingME, a benchmark that systematically challenges models across four critical dimensions: (1) Discriminative, distinguishing highly similar objects, (2) Spatial, understanding complex relational descriptions, (3) Limited, handling occlusions or tiny objects, and (4) Rejection, recognizing ungroundable queries. Through careful curation combining automated generation with human verification, we create 1,005 challenging examples mirroring real-world complexity. Evaluating 25 state-of-the-art MLLMs reveals a profound capability gap: the best model achieves only 45.1% accuracy, while most score 0% on rejection tasks, reflexively hallucinating objects rather than acknowledging their absence, raising critical safety concerns for deployment. We explore two strategies for improvements: (1) test-time scaling selects optimal response by thinking trajectory to improve complex grounding by up to 2.9%, and (2) data-mixture training teaches models to recognize ungroundable queries, boosting rejection accuracy from 0% to 27.9%. GroundingME thus serves as both a diagnostic tool revealing current limitations in MLLMs and a roadmap toward human-level visual grounding.
PDF142December 23, 2025