MM-JudgeBias : Un benchmark pour évaluer les biais compositionnels dans les MLLM en tant que juges

Résumé

Les modèles de langage de grande taille multimodaux (MLLM) sont de plus en plus utilisés comme évaluateurs automatiques, un paradigme connu sous le nom de MLLM-comme-juge. Cependant, leur fiabilité et leurs vulnérabilités aux biais restent insuffisamment explorées. Nous constatons que de nombreux juges MLLM échouent à intégrer de manière fiable les indices visuels ou textuels clés, produisant des évaluations peu fiables lorsque les preuves sont manquantes ou incohérentes, et présentant une instabilité face à des perturbations sémantiquement non pertinentes. Pour remédier à cela, nous définissons systématiquement le Biais Compositionnel dans les systèmes MLLM-comme-juge et introduisons MM-JudgeBias, un benchmark pour l'évaluer. MM-JudgeBias introduit des perturbations contrôlées sur la Requête, l'Image et la Réponse, et évalue le comportement du modèle via deux métriques complémentaires : le Biais-Déviation (BD) pour la sensibilité et le Biais-Conformité (BC) pour la stabilité. Notre jeu de données de plus de 1 800 échantillons multimodaux sélectionnés et affinés, issus de 29 benchmarks sources, permet un diagnostic granulaire de neuf types de biais à travers diverses tâches et domaines. Les expériences sur 26 MLLM de pointe révèlent une négligence systématique des modalités et des tendances d'évaluation asymétriques, soulignant le besoin de juges plus fiables.

English

Multimodal Large Language Models (MLLMs) have been increasingly used as automatic evaluators-a paradigm known as MLLM-as-a-Judge. However, their reliability and vulnerabilities to biases remain underexplored. We find that many MLLM judges fail to reliably integrate key visual or textual cues, yielding unreliable evaluations when evidence is missing or mismatched, and exhibiting instability under semantically irrelevant perturbations. To address this, we systematically define Compositional Bias in MLLM-as-a-Judge systems and introduce MM-JudgeBias, a benchmark for evaluating it. MM-JudgeBias introduces controlled perturbations across Query, Image, and Response, and evaluates model behavior via two complementary metrics: Bias-Deviation (BD) for sensitivity and Bias-Conformity (BC) for stability. Our dataset of over 1,800 curated and refined multimodal samples, drawn from 29 source benchmarks, enables a fine-grained diagnosis of nine bias types across diverse tasks and domains. Experiments on 26 state-of-the-art MLLMs reveal systematic modality neglect and asymmetric evaluation tendencies, underscoring the need for more reliable judges.

MM-JudgeBias : Un benchmark pour évaluer les biais compositionnels dans les MLLM en tant que juges

MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Résumé

Support