Видя — не значит веря: выявление слепых зон в оценочных моделях «зрение-язык»
Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models
April 23, 2026
Авторы: Mohammed Safi Ur Rahman Khan, Sanjay Suryanarayanan, Tushar Anand, Mitesh M. Khapra
cs.AI
Аннотация
Крупные визуально-языковые модели (VLM) все чаще используются для оценки выходных данных других моделей в таких задачах, как преобразование изображения в текст (например, визуальные вопросы и ответы) и генерация текста по изображению. Несмотря на растущую зависимость от них, надежность этих моделей-оценщиков остается недостаточно изученной. В данной работе мы систематически оцениваем надежность моделей-оценщиков VLM как для задач I2T, так и для задач T2I. Мы вводим целенаправленные возмущения, которые ухудшают качество выходных данных по ключевым параметрам ошибок, включая галлюцинации объектов, пространственные рассуждения, фактическую обоснованность и визуальную достоверность. Эти возмущения проверяют, способны ли модели-оценщики VLM достоверно учитывать эти ухудшающие качество ошибки в своих оценках. Используя комплексный бенчмарк из более чем 4000 возмущенных примеров, охватывающих 40 параметров возмущений, мы оцениваем 4 известные VLM, используя парадигмы оценки по единственному ответу, попарного сравнения и оценки с опорой на эталон. Наши результаты показывают, что современные VLM-оценщики демонстрируют существенные «слепые зоны»: они часто не обнаруживают возмущенные выходные данные (в некоторых случаях более чем в 50% случаев), особенно плохо справляются с композиционными и пространственными ошибками тонкого уровня и часто нечувствительны к галлюцинированному содержанию, которое противоречит входному изображению. Попарное сравнение оказывается более надежным, хотя процент ошибок сохраняется. Эти результаты подчеркивают ненадежный характер современных VLM-оценщиков и призывают к осторожности при их использовании для бенчмаркинга и принятия решений о разработке. Код и данные находятся в открытом доступе.
English
Large Vision-Language Models (VLMs) are increasingly used to evaluate outputs of other models, for image-to-text (I2T) tasks such as visual question answering, and text-to-image (T2I) generation tasks. Despite this growing reliance, the reliability of these Evaluator VLMs remains under explored. In this work, we systematically evaluate the reliability of Evaluator VLMs across both I2T and T2I tasks. We introduce targeted perturbations that degrade output quality along key error dimensions, including object hallucinations, spatial reasoning, factual grounding, and visual fidelity. These perturbations test whether Evaluator VLMs can reliably account for these quality degrading errors in their evaluations. Using a comprehensive benchmark of over 4000 perturbed instances spanning 40 perturbation dimensions, we evaluate 4 prominent VLMs using single-answer scoring, pairwise comparison, and reference-guided paradigms. Our findings reveal that current VLM evaluators exhibit substantial blind spots: they often fail to detect perturbed outputs - in some cases exceeding 50%, struggle particularly with fine-grained compositional and spatial errors, and are often insensitive to hallucinated content that contradicts the input image. Pairwise comparison proves more reliable, though failure rates persist. These results highlight the unreliable nature of current Evaluator VLMs and urge caution in their deployment for benchmarking and development decisions. Code and data have been made publicly available.