GroundingME: Exponiendo la Brecha de Grounding Visual en los MLLM mediante Evaluación Multidimensional
GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation
December 19, 2025
Autores: Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo
cs.AI
Resumen
La localización visual, que consiste en ubicar objetos a partir de descripciones en lenguaje natural, representa un puente crítico entre la comprensión del lenguaje y la visión. Aunque los modelos de lenguaje multimodal (MLLM) logran puntuaciones impresionantes en los benchmarks existentes, persiste una pregunta fundamental: ¿pueden los MLLM realmente anclar el lenguaje en la visión con una sofisticación similar a la humana, o simplemente están haciendo coincidencia de patrones en conjuntos de datos simplificados? Los benchmarks actuales no logran capturar la complejidad del mundo real, donde los humanos navegan sin esfuerzo a través de referencias ambiguas y reconocen cuándo la localización es imposible. Para evaluar rigurosamente las verdaderas capacidades de los MLLM, presentamos GroundingME, un benchmark que desafía sistemáticamente a los modelos en cuatro dimensiones críticas: (1) Discriminativa, distinguiendo objetos muy similares, (2) Espacial, comprendiendo descripciones relacionales complejas, (3) Limitada, manejando oclusiones u objetos minúsculos, y (4) de Rechazo, reconociendo consultas no localizables. Mediante una cuidadosa curación que combina generación automatizada con verificación humana, creamos 1.005 ejemplos desafiantes que reflejan la complejidad del mundo real. La evaluación de 25 MLLM de vanguardia revela una profunda brecha de capacidad: el mejor modelo alcanza solo un 45,1% de precisión, mientras que la mayoría obtiene un 0% en las tareas de rechazo, alucinando objetos de forma refleja en lugar de reconocer su ausencia, lo que plantea serias preocupaciones de seguridad para su despliegue. Exploramos dos estrategias de mejora: (1) el escalado en tiempo de prueba, que selecciona la respuesta óptima analizando la trayectoria de pensamiento para mejorar la localización compleja hasta en un 2,9%, y (2) el entrenamiento con mezcla de datos, que enseña a los modelos a reconocer consultas no localizables, aumentando la precisión en rechazo del 0% al 27,9%. Por lo tanto, GroundingME sirve tanto como una herramienta de diagnóstico que revela las limitaciones actuales de los MLLM como una hoja de ruta hacia la localización visual a nivel humano.
English
Visual grounding, localizing objects from natural language descriptions, represents a critical bridge between language and vision understanding. While multimodal large language models (MLLMs) achieve impressive scores on existing benchmarks, a fundamental question remains: can MLLMs truly ground language in vision with human-like sophistication, or are they merely pattern-matching on simplified datasets? Current benchmarks fail to capture real-world complexity where humans effortlessly navigate ambiguous references and recognize when grounding is impossible. To rigorously assess MLLMs' true capabilities, we introduce GroundingME, a benchmark that systematically challenges models across four critical dimensions: (1) Discriminative, distinguishing highly similar objects, (2) Spatial, understanding complex relational descriptions, (3) Limited, handling occlusions or tiny objects, and (4) Rejection, recognizing ungroundable queries. Through careful curation combining automated generation with human verification, we create 1,005 challenging examples mirroring real-world complexity. Evaluating 25 state-of-the-art MLLMs reveals a profound capability gap: the best model achieves only 45.1% accuracy, while most score 0% on rejection tasks, reflexively hallucinating objects rather than acknowledging their absence, raising critical safety concerns for deployment. We explore two strategies for improvements: (1) test-time scaling selects optimal response by thinking trajectory to improve complex grounding by up to 2.9%, and (2) data-mixture training teaches models to recognize ungroundable queries, boosting rejection accuracy from 0% to 27.9%. GroundingME thus serves as both a diagnostic tool revealing current limitations in MLLMs and a roadmap toward human-level visual grounding.