Voir n'est pas croire : Mettre en lumière les angles morts des modèles évaluateurs vision-langage

Résumé

Les grands modèles de vision et langage (VLM) sont de plus en plus utilisés pour évaluer les sorties d'autres modèles, tant pour les tâches image-à-texte (I2T) comme la réponse à des questions visuelles que pour les tâches de génération texte-à-image (T2I). Malgré cette dépendance croissante, la fiabilité de ces VLM évaluateurs reste peu explorée. Dans ce travail, nous évaluons systématiquement la fiabilité des VLM évaluateurs à travers les tâches I2T et T2I. Nous introduisons des perturbations ciblées qui dégradent la qualité des sorties selon des dimensions d'erreur clés, incluant les hallucinations d'objets, le raisonnement spatial, l'ancrage factuel et la fidélité visuelle. Ces perturbations testent si les VLM évaluateurs peuvent prendre en compte de manière fiable ces erreurs dégradant la qualité dans leurs évaluations. En utilisant un benchmark complet de plus de 4000 instances perturbées couvrant 40 dimensions de perturbation, nous évaluons 4 VLM prominents selon les paradigmes de notation par réponse unique, de comparaison par paires et d'évaluation guidée par référence. Nos résultats révèlent que les évaluateurs VLM actuels présentent des angles morts substantiels : ils échouent souvent à détecter les sorties perturbées - dépassant parfois 50%, peinent particulièrement avec les erreurs compositionnelles et spatiales fines, et sont souvent insensibles au contenu halluciné qui contredit l'image d'entrée. La comparaison par paires s'avère plus fiable, bien que des taux d'échec persistent. Ces résultats soulignent la nature peu fiable des VLM évaluateurs actuels et appellent à la prudence dans leur déploiement pour les décisions de benchmarking et de développement. Le code et les données ont été rendus publics.

English

Large Vision-Language Models (VLMs) are increasingly used to evaluate outputs of other models, for image-to-text (I2T) tasks such as visual question answering, and text-to-image (T2I) generation tasks. Despite this growing reliance, the reliability of these Evaluator VLMs remains under explored. In this work, we systematically evaluate the reliability of Evaluator VLMs across both I2T and T2I tasks. We introduce targeted perturbations that degrade output quality along key error dimensions, including object hallucinations, spatial reasoning, factual grounding, and visual fidelity. These perturbations test whether Evaluator VLMs can reliably account for these quality degrading errors in their evaluations. Using a comprehensive benchmark of over 4000 perturbed instances spanning 40 perturbation dimensions, we evaluate 4 prominent VLMs using single-answer scoring, pairwise comparison, and reference-guided paradigms. Our findings reveal that current VLM evaluators exhibit substantial blind spots: they often fail to detect perturbed outputs - in some cases exceeding 50%, struggle particularly with fine-grained compositional and spatial errors, and are often insensitive to hallucinated content that contradicts the input image. Pairwise comparison proves more reliable, though failure rates persist. These results highlight the unreliable nature of current Evaluator VLMs and urge caution in their deployment for benchmarking and development decisions. Code and data have been made publicly available.

Voir n'est pas croire : Mettre en lumière les angles morts des modèles évaluateurs vision-langage

Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models

Résumé

Support