ChatPaper.aiChatPaper

GroundingME: 다차원 평가를 통한 MLLM의 시각적 접지 격차 분석

GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation

December 19, 2025
저자: Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo
cs.AI

초록

시각적 기반화(visual grounding)는 자연어 설명으로부터 객체를 위치시키는 작업으로, 언어와 시각 이해 사이의 중요한 연결고리를 나타냅니다. 멀티모달 대규모 언어 모델(MLLM)이 기존 벤치마크에서 인상적인 점수를 달성하고 있지만, 근본적인 질문은 남아 있습니다: MLLM이 정말로 인간과 같은 수준으로 언어를 시각에 기반시킬 수 있을까, 아니면 단순히 단순화된 데이터셋에서 패턴 매칭을 하고 있는 걸까요? 현재의 벤치마크는 인간이 모호한 참조를 쉽게 해석하고 기반화가 불가능한 상황을 인식하는 실제 세계의 복잡성을 제대로 반영하지 못합니다. MLLM의 진정한 능력을 엄격하게 평가하기 위해 우리는 GroundingME 벤치마크를 소개합니다. 이 벤치마크는 네 가지 중요한 차원에서 모델에 체계적으로 도전합니다: (1) **식별력**: 매우 유사한 객체를 구분하기, (2) **공간적 이해**: 복잡한 관계적 설명 이해하기, (3) **제한적 조건**: 가려짐이나 매우 작은 객체 처리하기, (4) **거부 능력**: 기반화 불가능한 질의 인식하기. 자동 생성과 인간 검증을 결합한 신중한 과정을 통해 우리는 실제 세계의 복잡성을 반영하는 1,005개의 도전적인 예시를 생성했습니다. 25개의 최첨단 MLLM을 평가한 결과 심각한 능력 차이가 드러났습니다: 가장 성능이 좋은 모델도 정확도가 45.1%에 그쳤으며, 대부분의 모델은 거부 작업에서 0%의 점수를 기록했고, 객체가 없음을 인정하기보다 반사적으로 객체를 환각(hallucinate)하여 실제 배포 시 중요한 안전 우려를 제기했습니다. 우리는 개선을 위한 두 가지 전략을 탐구했습니다: (1) **테스트 시 스케일링(thinking trajectory)** 은 사고 궤적을 통해 최적의 응답을 선택하여 복잡한 기반화 성능을 최대 2.9% 향상시켰으며, (2) **데이터 혼합 학습**은 모델이 기반화 불가능한 질의를 인식하도록 가르쳐 거부 정확도를 0%에서 27.9%로 끌어올렸습니다. 따라서 GroundingME는 MLLM의 현재 한계를 드러내는 진단 도구이자 인간 수준의 시각적 기반화를 향한 로드맵 역할을 합니다.
English
Visual grounding, localizing objects from natural language descriptions, represents a critical bridge between language and vision understanding. While multimodal large language models (MLLMs) achieve impressive scores on existing benchmarks, a fundamental question remains: can MLLMs truly ground language in vision with human-like sophistication, or are they merely pattern-matching on simplified datasets? Current benchmarks fail to capture real-world complexity where humans effortlessly navigate ambiguous references and recognize when grounding is impossible. To rigorously assess MLLMs' true capabilities, we introduce GroundingME, a benchmark that systematically challenges models across four critical dimensions: (1) Discriminative, distinguishing highly similar objects, (2) Spatial, understanding complex relational descriptions, (3) Limited, handling occlusions or tiny objects, and (4) Rejection, recognizing ungroundable queries. Through careful curation combining automated generation with human verification, we create 1,005 challenging examples mirroring real-world complexity. Evaluating 25 state-of-the-art MLLMs reveals a profound capability gap: the best model achieves only 45.1% accuracy, while most score 0% on rejection tasks, reflexively hallucinating objects rather than acknowledging their absence, raising critical safety concerns for deployment. We explore two strategies for improvements: (1) test-time scaling selects optimal response by thinking trajectory to improve complex grounding by up to 2.9%, and (2) data-mixture training teaches models to recognize ungroundable queries, boosting rejection accuracy from 0% to 27.9%. GroundingME thus serves as both a diagnostic tool revealing current limitations in MLLMs and a roadmap toward human-level visual grounding.
PDF142December 23, 2025