ChatPaper.aiChatPaper

GroundingME : Mettre en lumière l'écart de repérage visuel dans les MLLM grâce à une évaluation multidimensionnelle

GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

December 19, 2025
papers.authors: Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo
cs.AI

papers.abstract

L'ancrage visuel, qui consiste à localiser des objets à partir de descriptions en langage naturel, représente un pont essentiel entre la compréhension du langage et de la vision. Bien que les modèles de langage multimodaux (MLLM) obtiennent des scores impressionnants sur les benchmarks existants, une question fondamentale subsiste : les MLLM peuvent-ils véritablement ancrer le langage dans la vision avec la sophistication humaine, ou se contentent-ils de faire de l'appariement de motifs sur des jeux de données simplifiés ? Les benchmarks actuels ne capturent pas la complexité du monde réel où les humains naviguent sans effort parmi des références ambiguës et reconnaissent quand l'ancrage est impossible. Pour évaluer rigoureusement les véritables capacités des MLLM, nous présentons GroundingME, un benchmark qui met systématiquement les modèles au défi selon quatre dimensions critiques : (1) Discriminatoire, pour distinguer des objets très similaires, (2) Spatiale, pour comprendre les descriptions relationnelles complexes, (3) Limitée, pour gérer les occlusions ou les objets minuscules, et (4) Rejet, pour reconnaître les requêtes non ancrables. Grâce à une curation minutieuse combinant génération automatisée et vérification humaine, nous avons créé 1 005 exemples difficiles reflétant la complexité du monde réel. L'évaluation de 25 MLLM de pointe révèle un écart de capacité profond : le meilleur modèle n'atteint que 45,1 % de précision, tandis que la plupart obtiennent 0 % sur les tâches de rejet, produisant de manière réflexive des hallucinations d'objets plutôt que de reconnaître leur absence, ce qui soulève des préoccupations critiques pour le déploiement en termes de sécurité. Nous explorons deux stratégies d'amélioration : (1) la mise à l'échelle au moment du test, qui sélectionne la réponse optimale en utilisant la trajectoire de raisonnement pour améliorer l'ancrage complexe jusqu'à 2,9 %, et (2) l'entraînement par mélange de données, qui apprend aux modèles à reconnaître les requêtes non ancrables, augmentant la précision du rejet de 0 % à 27,9 %. GroundingME sert ainsi à la fois d'outil de diagnostic révélant les limitations actuelles des MLLM et de feuille de route vers un ancrage visuel de niveau humain.
English
Visual grounding, localizing objects from natural language descriptions, represents a critical bridge between language and vision understanding. While multimodal large language models (MLLMs) achieve impressive scores on existing benchmarks, a fundamental question remains: can MLLMs truly ground language in vision with human-like sophistication, or are they merely pattern-matching on simplified datasets? Current benchmarks fail to capture real-world complexity where humans effortlessly navigate ambiguous references and recognize when grounding is impossible. To rigorously assess MLLMs' true capabilities, we introduce GroundingME, a benchmark that systematically challenges models across four critical dimensions: (1) Discriminative, distinguishing highly similar objects, (2) Spatial, understanding complex relational descriptions, (3) Limited, handling occlusions or tiny objects, and (4) Rejection, recognizing ungroundable queries. Through careful curation combining automated generation with human verification, we create 1,005 challenging examples mirroring real-world complexity. Evaluating 25 state-of-the-art MLLMs reveals a profound capability gap: the best model achieves only 45.1% accuracy, while most score 0% on rejection tasks, reflexively hallucinating objects rather than acknowledging their absence, raising critical safety concerns for deployment. We explore two strategies for improvements: (1) test-time scaling selects optimal response by thinking trajectory to improve complex grounding by up to 2.9%, and (2) data-mixture training teaches models to recognize ungroundable queries, boosting rejection accuracy from 0% to 27.9%. GroundingME thus serves as both a diagnostic tool revealing current limitations in MLLMs and a roadmap toward human-level visual grounding.
PDF142December 23, 2025