Sehen heißt nicht Glauben: Aufdeckung von Blindstellen bei Evaluator-Vision-Language-Modellen

Zusammenfassung

Große visuell-sprachliche Modelle (VLMs) werden zunehmend zur Bewertung der Ausgaben anderer Modelle eingesetzt, sowohl für Bild-zu-Text-Aufgaben (I2T) wie visuelle Fragebeantwortung als auch für Text-zu-Bild-Generierungsaufgaben (T2I). Trotz dieser wachsenden Abhängigkeit ist die Zuverlässigkeit dieser Evaluator-VLMs noch unzureichend erforscht. In dieser Arbeit evaluieren wir systematisch die Zuverlässigkeit von Evaluator-VLMs über I2T- und T2I-Aufgaben hinweg. Wir führen gezielte Störungen ein, die die Ausgabequalität entlang wichtiger Fehlerdimensionen verschlechtern, einschließlich Objekthalluzinationen, räumlichem Schlussfolgern, faktischer Fundierung und visueller Treue. Diese Störungen testen, ob Evaluator-VLMs zuverlässig diese qualitätsmindernden Fehler in ihren Bewertungen berücksichtigen können. Unter Verwendung eines umfassenden Benchmarks mit über 4000 gestörten Instanzen, die 40 Störungsdimensionen abdecken, evaluieren wir 4 prominente VLMs mittels Einzelantwort-Bewertung, paarweisem Vergleich und referenzgestützten Paradigmen. Unsere Ergebnisse zeigen, dass aktuelle VLM-Evaluatoren erhebliche blinde Flecken aufweisen: Sie erkennen oft gestörte Ausgaben nicht – in einigen Fällen zu mehr als 50 % –, haben besonders mit feinkörnigen kompositionellen und räumlichen Fehlern zu kämpfen und sind oft unempfindlich gegenüber halluzinierten Inhalten, die dem Eingabebild widersprechen. Der paarweise Vergleich erweist sich als zuverlässiger, dennoch bestehen Fehlerraten fort. Diese Ergebnisse unterstreichen die unzuverlässige Natur aktueller Evaluator-VLMs und mahnen zur Vorsicht bei ihrem Einsatz für Benchmarking und Entwicklungsentscheidungen. Code und Daten sind öffentlich verfügbar gemacht worden.

English

Large Vision-Language Models (VLMs) are increasingly used to evaluate outputs of other models, for image-to-text (I2T) tasks such as visual question answering, and text-to-image (T2I) generation tasks. Despite this growing reliance, the reliability of these Evaluator VLMs remains under explored. In this work, we systematically evaluate the reliability of Evaluator VLMs across both I2T and T2I tasks. We introduce targeted perturbations that degrade output quality along key error dimensions, including object hallucinations, spatial reasoning, factual grounding, and visual fidelity. These perturbations test whether Evaluator VLMs can reliably account for these quality degrading errors in their evaluations. Using a comprehensive benchmark of over 4000 perturbed instances spanning 40 perturbation dimensions, we evaluate 4 prominent VLMs using single-answer scoring, pairwise comparison, and reference-guided paradigms. Our findings reveal that current VLM evaluators exhibit substantial blind spots: they often fail to detect perturbed outputs - in some cases exceeding 50%, struggle particularly with fine-grained compositional and spatial errors, and are often insensitive to hallucinated content that contradicts the input image. Pairwise comparison proves more reliable, though failure rates persist. These results highlight the unreliable nature of current Evaluator VLMs and urge caution in their deployment for benchmarking and development decisions. Code and data have been made publicly available.

Sehen heißt nicht Glauben: Aufdeckung von Blindstellen bei Evaluator-Vision-Language-Modellen

Seeing Isn't Believing: Uncovering Blind Spots in Evaluator Vision-Language Models

Zusammenfassung

Support