GroundingME: Expondo a Lacuna de Grounding Visual em MLLMs por meio de Avaliação Multidimensional
GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation
December 19, 2025
Autores: Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo
cs.AI
Resumo
A fundamentação visual, que localiza objetos a partir de descrições em linguagem natural, representa uma ponte crítica entre a compreensão da linguagem e da visão. Embora os modelos de linguagem grandes multimodais (MLLMs) atinjam pontuações impressionantes em benchmarks existentes, uma questão fundamental permanece: os MLLMs podem verdadeiramente fundamentar a linguagem na visão com a sofisticação similar à humana, ou estão apenas a fazer correspondência de padrões em conjuntos de dados simplificados? Os benchmarks atuais não capturam a complexidade do mundo real, onde os humanos navegam sem esforço referências ambíguas e reconhecem quando a fundamentação é impossível. Para avaliar rigorosamente as verdadeiras capacidades dos MLLMs, introduzimos o GroundingME, um benchmark que desafia sistematicamente os modelos em quatro dimensões críticas: (1) Discriminativa, distinguindo objetos altamente similares, (2) Espacial, compreendendo descrições relacionais complexas, (3) Limitada, lidando com oclusões ou objetos minúsculos, e (4) Rejeição, reconhecendo consultas impossíveis de fundamentar. Através de uma curadoria cuidadosa que combina geração automatizada com verificação humana, criamos 1.005 exemplos desafiadores que espelham a complexidade do mundo real. A avaliação de 25 MLLMs state-of-the-art revela uma lacuna profunda de capacidade: o melhor modelo atinge apenas 45,1% de precisão, enquanto a maioria pontua 0% em tarefas de rejeição, alucinando objetos reflexivamente em vez de reconhecer a sua ausência, levantando preocupações críticas de segurança para a implantação. Exploramos duas estratégias de melhoria: (1) a escala no momento do teste seleciona a resposta ótima através da trajetória de pensamento para melhorar a fundamentação complexa em até 2,9%, e (2) o treino com mistura de dados ensina os modelos a reconhecer consultas impossíveis de fundamentar, aumentando a precisão de rejeição de 0% para 27,9%. O GroundingME serve, assim, tanto como uma ferramenta de diagnóstico que revela as limitações atuais dos MLLMs como um roteiro para a fundamentação visual de nível humano.
English
Visual grounding, localizing objects from natural language descriptions, represents a critical bridge between language and vision understanding. While multimodal large language models (MLLMs) achieve impressive scores on existing benchmarks, a fundamental question remains: can MLLMs truly ground language in vision with human-like sophistication, or are they merely pattern-matching on simplified datasets? Current benchmarks fail to capture real-world complexity where humans effortlessly navigate ambiguous references and recognize when grounding is impossible. To rigorously assess MLLMs' true capabilities, we introduce GroundingME, a benchmark that systematically challenges models across four critical dimensions: (1) Discriminative, distinguishing highly similar objects, (2) Spatial, understanding complex relational descriptions, (3) Limited, handling occlusions or tiny objects, and (4) Rejection, recognizing ungroundable queries. Through careful curation combining automated generation with human verification, we create 1,005 challenging examples mirroring real-world complexity. Evaluating 25 state-of-the-art MLLMs reveals a profound capability gap: the best model achieves only 45.1% accuracy, while most score 0% on rejection tasks, reflexively hallucinating objects rather than acknowledging their absence, raising critical safety concerns for deployment. We explore two strategies for improvements: (1) test-time scaling selects optimal response by thinking trajectory to improve complex grounding by up to 2.9%, and (2) data-mixture training teaches models to recognize ungroundable queries, boosting rejection accuracy from 0% to 27.9%. GroundingME thus serves as both a diagnostic tool revealing current limitations in MLLMs and a roadmap toward human-level visual grounding.