Vedere non è Credere: Scoprire i Punti Ciechi nei Modelli Valutatori di Visione e Linguaggio
Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models
April 23, 2026
Autori: Mohammed Safi Ur Rahman Khan, Sanjay Suryanarayanan, Tushar Anand, Mitesh M. Khapra
cs.AI
Abstract
I grandi modelli linguistici visivi (VLM) sono sempre più utilizzati per valutare gli output di altri modelli, sia per compiti di immagine-a-testo (I2T), come il question answering visivo, che per compiti di generazione testo-a-immagine (T2I). Nonostante questa crescente dipendenza, l'affidabilità di questi VLM valutatori rimane poco esplorata. In questo lavoro, valutiamo sistematicamente l'affidabilità dei VLM valutatori sia per i compiti I2T che T2I. Introduciamo perturbazioni mirate che degradano la qualità dell'output lungo dimensioni chiave di errore, incluse allucinazioni di oggetti, ragionamento spaziale, fondatezza fattuale e fedeltà visiva. Queste perturbazioni testano se i VLM valutatori sono in grado di tenere conto in modo affidabile di questi errori che degradano la qualità nelle loro valutazioni. Utilizzando un benchmark completo di oltre 4000 istanze perturbate che coprono 40 dimensioni di perturbazione, valutiamo 4 VLM prominenti utilizzando paradigmi di punteggio a risposta singola, confronto a coppie e guida tramite riferimento. I nostri risultati rivelano che gli attuali valutatori VLM presentano punti ciechi sostanziali: spesso non riescono a rilevare output perturbati - in alcuni casi superando il 50%, faticano particolarmente con errori composizionali e spaziali granulari, e sono spesso insensibili a contenuti allucinati che contraddicono l'immagine di input. Il confronto a coppie si rivela più affidabile, sebbene persistano tassi di fallimento. Questi risultati evidenziano la natura inaffidabile degli attuali VLM valutatori e sollecitano cautela nel loro utilizzo per decisioni di benchmarking e sviluppo. Il codice e i dati sono stati resi pubblicamente disponibili.
English
Large Vision-Language Models (VLMs) are increasingly used to evaluate outputs of other models, for image-to-text (I2T) tasks such as visual question answering, and text-to-image (T2I) generation tasks. Despite this growing reliance, the reliability of these Evaluator VLMs remains under explored. In this work, we systematically evaluate the reliability of Evaluator VLMs across both I2T and T2I tasks. We introduce targeted perturbations that degrade output quality along key error dimensions, including object hallucinations, spatial reasoning, factual grounding, and visual fidelity. These perturbations test whether Evaluator VLMs can reliably account for these quality degrading errors in their evaluations. Using a comprehensive benchmark of over 4000 perturbed instances spanning 40 perturbation dimensions, we evaluate 4 prominent VLMs using single-answer scoring, pairwise comparison, and reference-guided paradigms. Our findings reveal that current VLM evaluators exhibit substantial blind spots: they often fail to detect perturbed outputs - in some cases exceeding 50%, struggle particularly with fine-grained compositional and spatial errors, and are often insensitive to hallucinated content that contradicts the input image. Pairwise comparison proves more reliable, though failure rates persist. These results highlight the unreliable nature of current Evaluator VLMs and urge caution in their deployment for benchmarking and development decisions. Code and data have been made publicly available.