MM-JudgeBias: Een Benchmark voor het Evalueren van Compositionele Vooroordelen in MLLM-als-Rechter

Samenvatting

Multimodale Large Language Models (MLLM's) worden steeds vaker gebruikt als automatische beoordelaars - een paradigma dat bekend staat als MLLM-as-a-Judge. Hun betrouwbaarheid en kwetsbaarheid voor biases blijven echter onderbelicht. Wij constateren dat veel MLLM-beoordelaars er niet in slagen om cruciale visuele of tekstuele aanwijzingen betrouwbaar te integreren, wat leidt tot onbetrouwbare evaluaties wanneer bewijs ontbreekt of niet overeenkomt, en instabiliteit vertoont onder semantisch irrelevante verstoringen. Om dit aan te pakken, definiëren wij systematisch Compositionele Bias in MLLM-as-a-Judge-systemen en introduceren MM-JudgeBias, een benchmark voor de evaluatie daarvan. MM-JudgeBias introduceert gecontroleerde verstoringen in Query, Afbeelding en Response, en evalueert modelgedrag via twee complementaire metrieken: Bias-Deviation (BD) voor gevoeligheid en Bias-Conformity (BC) voor stabiliteit. Onze dataset van meer dan 1800 gecureerde en verfijnde multimodale samples, afkomstig uit 29 bronbenchmarks, maakt een gedetailleerde diagnose mogelijk van negen bias-types over diverse taken en domeinen. Experimenten met 26 state-of-the-art MLLM's onthullen systematische modaliteitsverwaarlozing en asymmetrische evaluatietendensen, wat de noodzaak onderstreept voor betrouwbaardere beoordelaars.

English

Multimodal Large Language Models (MLLMs) have been increasingly used as automatic evaluators-a paradigm known as MLLM-as-a-Judge. However, their reliability and vulnerabilities to biases remain underexplored. We find that many MLLM judges fail to reliably integrate key visual or textual cues, yielding unreliable evaluations when evidence is missing or mismatched, and exhibiting instability under semantically irrelevant perturbations. To address this, we systematically define Compositional Bias in MLLM-as-a-Judge systems and introduce MM-JudgeBias, a benchmark for evaluating it. MM-JudgeBias introduces controlled perturbations across Query, Image, and Response, and evaluates model behavior via two complementary metrics: Bias-Deviation (BD) for sensitivity and Bias-Conformity (BC) for stability. Our dataset of over 1,800 curated and refined multimodal samples, drawn from 29 source benchmarks, enables a fine-grained diagnosis of nine bias types across diverse tasks and domains. Experiments on 26 state-of-the-art MLLMs reveal systematic modality neglect and asymmetric evaluation tendencies, underscoring the need for more reliable judges.

MM-JudgeBias: Een Benchmark voor het Evalueren van Compositionele Vooroordelen in MLLM-als-Rechter

MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Samenvatting

Support