MM-JudgeBias: Ein Benchmark zur Bewertung kompositioneller Verzerrungen in MLLM-as-a-Judge

Zusammenfassung

Multimodale Large Language Models (MLLMs) werden zunehmend als automatische Bewerter eingesetzt – ein Paradigma, das als MLLM-as-a-Judge bekannt ist. Ihre Zuverlässigkeit und Anfälligkeit für Verzerrungen (Bias) sind jedoch noch unzureichend erforscht. Wir stellen fest, dass viele MLLM-Bewerter wesentliche visuelle oder textuelle Hinweise nicht zuverlässig integrieren können, was zu unzuverlässigen Bewertungen führt, wenn Beweise fehlen oder nicht übereinstimmen, und die unter semantisch irrelevanten Störungen Instabilität zeigen. Um dies zu adressieren, definieren wir systematisch den sogenannten Compositional Bias in MLLM-as-a-Judge-Systemen und führen MM-JudgeBias ein, einen Benchmark zu dessen Bewertung. MM-JudgeBias führt kontrollierte Störungen in Abfrage, Bild und Antwort ein und bewertet das Modellverhalten anhand zweier komplementärer Metriken: Bias-Deviation (BD) für die Empfindlichkeit und Bias-Conformity (BC) für die Stabilität. Unser Datensatz mit über 1.800 kuratierten und verfeinerten multimodalen Stichproben aus 29 Quell-Benchmarks ermöglicht eine feingranulare Diagnose von neun Bias-Typen über verschiedene Aufgaben und Domänen hinweg. Experimente mit 26 modernsten MLLMs zeigen systematische Modalitätsvernachlässigung und asymmetrische Bewertungstendenzen auf und unterstreichen die Notwendigkeit zuverlässigerer Bewerter.

English

Multimodal Large Language Models (MLLMs) have been increasingly used as automatic evaluators-a paradigm known as MLLM-as-a-Judge. However, their reliability and vulnerabilities to biases remain underexplored. We find that many MLLM judges fail to reliably integrate key visual or textual cues, yielding unreliable evaluations when evidence is missing or mismatched, and exhibiting instability under semantically irrelevant perturbations. To address this, we systematically define Compositional Bias in MLLM-as-a-Judge systems and introduce MM-JudgeBias, a benchmark for evaluating it. MM-JudgeBias introduces controlled perturbations across Query, Image, and Response, and evaluates model behavior via two complementary metrics: Bias-Deviation (BD) for sensitivity and Bias-Conformity (BC) for stability. Our dataset of over 1,800 curated and refined multimodal samples, drawn from 29 source benchmarks, enables a fine-grained diagnosis of nine bias types across diverse tasks and domains. Experiments on 26 state-of-the-art MLLMs reveal systematic modality neglect and asymmetric evaluation tendencies, underscoring the need for more reliable judges.

MM-JudgeBias: Ein Benchmark zur Bewertung kompositioneller Verzerrungen in MLLM-as-a-Judge

MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Zusammenfassung

Support