Ver Não É Crer: Revelando Pontos Cegos na Avaliação de Modelos Visão-Linguagem
Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models
April 23, 2026
Autores: Mohammed Safi Ur Rahman Khan, Sanjay Suryanarayanan, Tushar Anand, Mitesh M. Khapra
cs.AI
Resumo
Os Grandes Modelos de Visão e Linguagem (VLMs) são cada vez mais utilizados para avaliar os resultados de outros modelos, tanto em tarefas de imagem-para-texto (I2T), como resposta a perguntas visuais, quanto em tarefas de geração de texto-para-imagem (T2I). Apesar dessa crescente dependência, a confiabilidade desses VLMs Avaliadores permanece pouco explorada. Neste trabalho, avaliamos sistematicamente a confiabilidade dos VLMs Avaliadores em tarefas I2T e T2I. Introduzimos perturbações direcionadas que degradam a qualidade da saída ao longo de dimensões-chave de erro, incluindo alucinações de objetos, raciocínio espacial, fundamentação factual e fidelidade visual. Essas perturbações testam se os VLMs Avaliadores podem contabilizar de forma confiável esses erros de degradação de qualidade em suas avaliações. Utilizando um benchmark abrangente de mais de 4000 instâncias perturbadas abrangendo 40 dimensões de perturbação, avaliamos 4 VLMs proeminentes usando os paradigmas de pontuação de resposta única, comparação pareada e referência guiada. Nossas descobertas revelam que os avaliadores VLM atuais exibem pontos cegos substanciais: eles frequentemente falham em detectar saídas perturbadas – em alguns casos ultrapassando 50%, têm dificuldades particularmente com erros composicionais e espaciais de granularidade fina e são frequentemente insensíveis a conteúdo alucinado que contradiz a imagem de entrada. A comparação pareada mostra-se mais confiável, embora as taxas de falha persistam. Esses resultados destacam a natureza não confiável dos VLMs Avaliadores atuais e alertam para a cautela em sua implantação para decisões de desenvolvimento e benchmark. O código e os dados foram disponibilizados publicamente.
English
Large Vision-Language Models (VLMs) are increasingly used to evaluate outputs of other models, for image-to-text (I2T) tasks such as visual question answering, and text-to-image (T2I) generation tasks. Despite this growing reliance, the reliability of these Evaluator VLMs remains under explored. In this work, we systematically evaluate the reliability of Evaluator VLMs across both I2T and T2I tasks. We introduce targeted perturbations that degrade output quality along key error dimensions, including object hallucinations, spatial reasoning, factual grounding, and visual fidelity. These perturbations test whether Evaluator VLMs can reliably account for these quality degrading errors in their evaluations. Using a comprehensive benchmark of over 4000 perturbed instances spanning 40 perturbation dimensions, we evaluate 4 prominent VLMs using single-answer scoring, pairwise comparison, and reference-guided paradigms. Our findings reveal that current VLM evaluators exhibit substantial blind spots: they often fail to detect perturbed outputs - in some cases exceeding 50%, struggle particularly with fine-grained compositional and spatial errors, and are often insensitive to hallucinated content that contradicts the input image. Pairwise comparison proves more reliable, though failure rates persist. These results highlight the unreliable nature of current Evaluator VLMs and urge caution in their deployment for benchmarking and development decisions. Code and data have been made publicly available.