GroundingME: Выявление пробела визуального заземления в MLLM с помощью многомерной оценки
GroundingME: Exposing the Visual Grounding Gap in MLLMs through Multi-Dimensional Evaluation
December 19, 2025
Авторы: Rang Li, Lei Li, Shuhuai Ren, Hao Tian, Shuhao Gu, Shicheng Li, Zihao Yue, Yudong Wang, Wenhan Ma, Zhe Yang, Jingyuan Ma, Zhifang Sui, Fuli Luo
cs.AI
Аннотация
Визуальное заземление, то есть локализация объектов по естественно-языковым описаниям, представляет собой критически важный мост между пониманием языка и зрения. Хотя мультимодальные большие языковые модели (MLLM) демонстрируют впечатляющие результаты на существующих бенчмарках, фундаментальный вопрос остается открытым: способны ли MLLM по-настоящему, с человеческой точностью, заземлять язык в визуальном контексте или же они просто сопоставляют шаблоны на упрощенных наборах данных? Современные бенчмарки не отражают реальную сложность мира, где люди легко оперируют неоднозначными отсылками и распознают ситуации, когда заземление невозможно. Для строгой оценки истинных возможностей MLLM мы представляем GroundingME — бенчмарк, который систематически проверяет модели по четырем ключевым направлениям: (1) *Дискриминативное* — различение очень похожих объектов, (2) *Пространственное* — понимание сложных реляционных описаний, (3) *Ограниченное* — работа с перекрытиями или мелкими объектами, и (4) *Отказ* — распознавание некорректных запросов, для которых заземление невозможно. Путем тщательной комбинации автоматической генерации и человеческой проверки мы создали 1005 сложных примеров, отражающих реальную сложность задач. Оценка 25 современных MLLM выявила значительный разрыв в возможностях: лучшая модель достигает точности лишь 45.1%, в то время как большинство показывают 0% на задачах отказа, рефлекторно галлюцинируя объекты вместо того, чтобы признать их отсутствие, что вызывает серьезные опасения для их практического развертывания. Мы исследуем две стратегии улучшений: (1) *масштабирование во время теста* выбирает оптимальный ответ на основе "траектории размышления", улучшая точность сложного заземления до 2.9%, и (2) *обучение на смеси данных* учит модели распознавать некорректные запросы, повышая точность на задачах отказа с 0% до 27.9%. Таким образом, GroundingME служит как диагностическим инструментом, выявляющим текущие ограничения MLLM, так и дорожной картой для достижения человеческого уровня в визуальном заземлении.
English
Visual grounding, localizing objects from natural language descriptions, represents a critical bridge between language and vision understanding. While multimodal large language models (MLLMs) achieve impressive scores on existing benchmarks, a fundamental question remains: can MLLMs truly ground language in vision with human-like sophistication, or are they merely pattern-matching on simplified datasets? Current benchmarks fail to capture real-world complexity where humans effortlessly navigate ambiguous references and recognize when grounding is impossible. To rigorously assess MLLMs' true capabilities, we introduce GroundingME, a benchmark that systematically challenges models across four critical dimensions: (1) Discriminative, distinguishing highly similar objects, (2) Spatial, understanding complex relational descriptions, (3) Limited, handling occlusions or tiny objects, and (4) Rejection, recognizing ungroundable queries. Through careful curation combining automated generation with human verification, we create 1,005 challenging examples mirroring real-world complexity. Evaluating 25 state-of-the-art MLLMs reveals a profound capability gap: the best model achieves only 45.1% accuracy, while most score 0% on rejection tasks, reflexively hallucinating objects rather than acknowledging their absence, raising critical safety concerns for deployment. We explore two strategies for improvements: (1) test-time scaling selects optimal response by thinking trajectory to improve complex grounding by up to 2.9%, and (2) data-mixture training teaches models to recognize ungroundable queries, boosting rejection accuracy from 0% to 27.9%. GroundingME thus serves as both a diagnostic tool revealing current limitations in MLLMs and a roadmap toward human-level visual grounding.