Ver no es creer: Descubriendo puntos ciegos en la evaluación de modelos de visión y lenguaje.

Resumen

Los Grandes Modelos de Visión y Lenguaje (VLMs) se utilizan cada vez más para evaluar las salidas de otros modelos, tanto en tareas de imagen a texto (I2T), como la respuesta a preguntas visuales, como en tareas de generación de texto a imagen (T2I). A pesar de esta creciente dependencia, la fiabilidad de estos VLMs Evaluadores sigue sin explorarse adecuadamente. En este trabajo, evaluamos sistemáticamente la fiabilidad de los VLMs Evaluadores en tareas tanto I2T como T2I. Introducimos perturbaciones específicas que degradan la calidad de la salida a lo largo de dimensiones clave de error, incluyendo alucinaciones de objetos, razonamiento espacial, fundamentación factual y fidelidad visual. Estas perturbaciones prueban si los VLMs Evaluadores pueden tener en cuenta de forma fiable estos errores que degradan la calidad en sus evaluaciones. Utilizando un benchmark integral de más de 4000 instancias perturbadas que abarcan 40 dimensiones de perturbación, evaluamos 4 VLMs prominentes utilizando paradigmas de puntuación de respuesta única, comparación por pares y evaluación guiada por referencia. Nuestros hallazgos revelan que los evaluadores VLM actuales presentan puntos ciegos sustanciales: a menudo no detectan las salidas perturbadas —en algunos casos superando el 50%—, tienen dificultades particularmente con errores compositivos y espaciales de grano fino, y a menudo son insensibles al contenido alucinado que contradice la imagen de entrada. La comparación por pares resulta más fiable, aunque persisten tasas de fallo. Estos resultados destacan la naturaleza poco fiable de los VLMs Evaluadores actuales y urgen a la precaución en su despliegue para decisiones de desarrollo y benchmarking. El código y los datos han sido puestos a disposición del público.

English

Large Vision-Language Models (VLMs) are increasingly used to evaluate outputs of other models, for image-to-text (I2T) tasks such as visual question answering, and text-to-image (T2I) generation tasks. Despite this growing reliance, the reliability of these Evaluator VLMs remains under explored. In this work, we systematically evaluate the reliability of Evaluator VLMs across both I2T and T2I tasks. We introduce targeted perturbations that degrade output quality along key error dimensions, including object hallucinations, spatial reasoning, factual grounding, and visual fidelity. These perturbations test whether Evaluator VLMs can reliably account for these quality degrading errors in their evaluations. Using a comprehensive benchmark of over 4000 perturbed instances spanning 40 perturbation dimensions, we evaluate 4 prominent VLMs using single-answer scoring, pairwise comparison, and reference-guided paradigms. Our findings reveal that current VLM evaluators exhibit substantial blind spots: they often fail to detect perturbed outputs - in some cases exceeding 50%, struggle particularly with fine-grained compositional and spatial errors, and are often insensitive to hallucinated content that contradicts the input image. Pairwise comparison proves more reliable, though failure rates persist. These results highlight the unreliable nature of current Evaluator VLMs and urge caution in their deployment for benchmarking and development decisions. Code and data have been made publicly available.

Ver no es creer: Descubriendo puntos ciegos en la evaluación de modelos de visión y lenguaje.

Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models

Resumen

Support