MM-JudgeBias: Un Punto de Referencia para Evaluar Sesgos Composicionales en MLLM-como-Juez

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) se utilizan cada vez más como evaluadores automáticos, un paradigma conocido como MLLM-como-Juez. Sin embargo, su fiabilidad y vulnerabilidades a los sesgos siguen estando poco exploradas. Descubrimos que muchos jueces MLLM no logran integrar de manera fiable pistas visuales o textuales clave, produciendo evaluaciones poco fiables cuando la evidencia falta o no coincide, y mostrando inestabilidad bajo perturbaciones semánticamente irrelevantes. Para abordar esto, definimos sistemáticamente el Sesgo Composicional en los sistemas MLLM-como-Juez e introducimos MM-JudgeBias, un benchmark para evaluarlo. MM-JudgeBias introduce perturbaciones controladas en la Consulta, la Imagen y la Respuesta, y evalúa el comportamiento del modelo mediante dos métricas complementarias: Desviación por Sesgo (BD) para la sensibilidad y Conformidad de Sesgo (BC) para la estabilidad. Nuestro conjunto de datos de más de 1.800 muestras multimodales curadas y refinadas, extraídas de 29 benchmarks fuente, permite un diagnóstico detallado de nueve tipos de sesgo en diversas tareas y dominios. Los experimentos con 26 MLLMs de vanguardia revelan una negligencia modal sistemática y tendencias de evaluación asimétricas, subrayando la necesidad de jueces más fiables.

English

Multimodal Large Language Models (MLLMs) have been increasingly used as automatic evaluators-a paradigm known as MLLM-as-a-Judge. However, their reliability and vulnerabilities to biases remain underexplored. We find that many MLLM judges fail to reliably integrate key visual or textual cues, yielding unreliable evaluations when evidence is missing or mismatched, and exhibiting instability under semantically irrelevant perturbations. To address this, we systematically define Compositional Bias in MLLM-as-a-Judge systems and introduce MM-JudgeBias, a benchmark for evaluating it. MM-JudgeBias introduces controlled perturbations across Query, Image, and Response, and evaluates model behavior via two complementary metrics: Bias-Deviation (BD) for sensitivity and Bias-Conformity (BC) for stability. Our dataset of over 1,800 curated and refined multimodal samples, drawn from 29 source benchmarks, enables a fine-grained diagnosis of nine bias types across diverse tasks and domains. Experiments on 26 state-of-the-art MLLMs reveal systematic modality neglect and asymmetric evaluation tendencies, underscoring the need for more reliable judges.

MM-JudgeBias: Un Punto de Referencia para Evaluar Sesgos Composicionales en MLLM-como-Juez

MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Resumen

Support