GroundingME: 多次元評価によるMLLMの視覚的接地ギャップの解明
GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation
December 19, 2025
著者: Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo
cs.AI
要旨
視覚的グラウンディング(自然言語記述から物体を位置特定する技術)は、言語理解と視覚理解を結ぶ重要な架け橋である。マルチモーダル大規模言語モデル(MLLM)が既存のベンチマークで高いスコアを達成している一方で、根本的な疑問が残る:MLLMは真に人間のように言語を視覚に結びつけられるのか、それとも単純化されたデータセットでのパターンマッチングに過ぎないのか?現在のベンチマークは、人間が曖昧な参照を容易に処理し、グラウンディングが不可能な場合を認識する現実世界の複雑さを捉えられていない。MLLMの真の能力を厳密に評価するため、我々はGroundingMEを提案する。このベンチマークは4つの重要次元でモデルに体系的に挑戦する:(1)識別性(類似物体の区別)、(2)空間性(複雑な関係記述の理解)、(3)限定性(遮蔽や微小物体の処理)、(4)拒絶性(グラウンディング不能な問い合わせの認識)。自動生成と人手検証を組み合わせた慎重な選定により、現実世界の複雑性を反映した1,005の挑戦的事例を構築した。25の最先端MLLMを評価した結果、深刻な能力ギャップが明らかになった:最高性能モデルでも精度45.1%に留まり、拒絶タスクでは大多数のモデルが0%、物体が存在しない場合でも反射的に虚構の物体を生成するなど、実用化における重大な安全性課題が浮き彫りとなった。改善策として2つのアプローチを検証:(1)テスト時スケーリング(思考軌道から最適応答を選択)により複雑なグラウンディングタスクで最大2.9%改善、(2)データ混合学習(グラウンディング不能な問い合わせを認識させる)により拒絶精度を0%から27.9%に向上。GroundingMEは、MLLMの現状限界を診断するツールであると同時に、人間レベルの視覚的グラウンディング実現への道標となる。
English
Visual grounding, localizing objects from natural language descriptions, represents a critical bridge between language and vision understanding. While multimodal large language models (MLLMs) achieve impressive scores on existing benchmarks, a fundamental question remains: can MLLMs truly ground language in vision with human-like sophistication, or are they merely pattern-matching on simplified datasets? Current benchmarks fail to capture real-world complexity where humans effortlessly navigate ambiguous references and recognize when grounding is impossible. To rigorously assess MLLMs' true capabilities, we introduce GroundingME, a benchmark that systematically challenges models across four critical dimensions: (1) Discriminative, distinguishing highly similar objects, (2) Spatial, understanding complex relational descriptions, (3) Limited, handling occlusions or tiny objects, and (4) Rejection, recognizing ungroundable queries. Through careful curation combining automated generation with human verification, we create 1,005 challenging examples mirroring real-world complexity. Evaluating 25 state-of-the-art MLLMs reveals a profound capability gap: the best model achieves only 45.1% accuracy, while most score 0% on rejection tasks, reflexively hallucinating objects rather than acknowledging their absence, raising critical safety concerns for deployment. We explore two strategies for improvements: (1) test-time scaling selects optimal response by thinking trajectory to improve complex grounding by up to 2.9%, and (2) data-mixture training teaches models to recognize ungroundable queries, boosting rejection accuracy from 0% to 27.9%. GroundingME thus serves as both a diagnostic tool revealing current limitations in MLLMs and a roadmap toward human-level visual grounding.