Zien is niet geloven: Blinde vlekken blootleggen in evaluator vision-language modellen

Samenvatting

Grote Vision-Language Models (VLMs) worden steeds vaker ingezet om de uitvoer van andere modellen te evalueren, zowel voor beeld-naar-tekst (I2T) taken zoals visuele vraagbeantwoording als voor tekst-naar-beeld (T2I) generatietaken. Ondanks deze groeiende afhankelijkheid is de betrouwbaarheid van deze Evaluator-VLMs nog onvoldoende onderzocht. In dit werk evalueren we systematisch de betrouwbaarheid van Evaluator-VLMs voor zowel I2T- als T2I-taken. We introduceren gerichte perturbaties die de uitvoerkwaliteit verslechteren langs cruciale foutdimensies, waaronder objecthallucinaties, ruimtelijk redeneren, feitelijke onderbouwing en visuele geloofwaardigheid. Deze perturbaties testen of Evaluator-VLMs op betrouwbare wijze rekening kunnen houden met deze kwaliteitsverslechterende fouten in hun evaluaties. Met behulp van een uitgebreide benchmark van meer dan 4000 verstoorde instanties, verspreid over 40 perturbatiedimensies, evalueren we 4 prominente VLMs met behulp van enkel-antwoord scoring, paarsgewijze vergelijking en referentie-gestuurde paradigma's. Onze bevindingen onthullen dat huidige VLM-evaluatoren aanzienlijke blinde vlekken vertonen: ze slagen er vaak niet in verstoorde uitvoer te detecteren – in sommige gevallen meer dan 50%, ze hebben vooral moeite met fijnmazige compositionele en ruimtelijke fouten, en zijn vaak ongevoelig voor gehallucineerde inhoud die in tegenspraak is met de invoerafbeelding. Paarsgewijze vergelijking blijkt betrouwbaarder, hoewel faalpercentages aanhouden. Deze resultaten benadrukken de onbetrouwbare aard van de huidige Evaluator-VLMs en pleiten voor voorzichtigheid bij hun inzet voor benchmark-doeleinden en ontwikkelingsbeslissingen. Code en data zijn openbaar gemaakt.

English

Large Vision-Language Models (VLMs) are increasingly used to evaluate outputs of other models, for image-to-text (I2T) tasks such as visual question answering, and text-to-image (T2I) generation tasks. Despite this growing reliance, the reliability of these Evaluator VLMs remains under explored. In this work, we systematically evaluate the reliability of Evaluator VLMs across both I2T and T2I tasks. We introduce targeted perturbations that degrade output quality along key error dimensions, including object hallucinations, spatial reasoning, factual grounding, and visual fidelity. These perturbations test whether Evaluator VLMs can reliably account for these quality degrading errors in their evaluations. Using a comprehensive benchmark of over 4000 perturbed instances spanning 40 perturbation dimensions, we evaluate 4 prominent VLMs using single-answer scoring, pairwise comparison, and reference-guided paradigms. Our findings reveal that current VLM evaluators exhibit substantial blind spots: they often fail to detect perturbed outputs - in some cases exceeding 50%, struggle particularly with fine-grained compositional and spatial errors, and are often insensitive to hallucinated content that contradicts the input image. Pairwise comparison proves more reliable, though failure rates persist. These results highlight the unreliable nature of current Evaluator VLMs and urge caution in their deployment for benchmarking and development decisions. Code and data have been made publicly available.

Zien is niet geloven: Blinde vlekken blootleggen in evaluator vision-language modellen

Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models

Samenvatting

Support