MM-JudgeBias: Um Benchmark para Avaliação de Vieses Composicionais em MLLM-como-Juiz

Resumo

Os Modelos de Linguagem Multimodais de Grande Escala (MLLMs) têm sido cada vez mais utilizados como avaliadores automáticos - um paradigma conhecido como MLLM-como-Avaliador. No entanto, sua confiabilidade e vulnerabilidades a vieses permanecem pouco exploradas. Descobrimos que muitos avaliadores MLLM falham em integrar de forma confiável pistas visuais ou textuais essenciais, produzindo avaliações não confiáveis quando as evidências estão ausentes ou desencontradas, e exibindo instabilidade sob perturbações semanticamente irrelevantes. Para abordar esta questão, definimos sistematicamente o Viés Composicional em sistemas MLLM-como-Avaliador e introduzimos o MM-JudgeBias, um benchmark para sua avaliação. O MM-JudgeBias introduz perturbações controladas na Consulta, Imagem e Resposta, e avalia o comportamento do modelo por meio de duas métricas complementares: Desvio de Viés (BD) para sensibilidade e Conformidade de Viés (BC) para estabilidade. Nosso conjunto de dados com mais de 1.800 amostras multimodais curadas e refinadas, provenientes de 29 benchmarks de origem, permite um diagnóstico refinado de nove tipos de viés em diversas tarefas e domínios. Experimentos com 26 MLLMs de última geração revelam negligência modal sistemática e tendências avaliativas assimétricas, destacando a necessidade de avaliadores mais confiáveis.

English

Multimodal Large Language Models (MLLMs) have been increasingly used as automatic evaluators-a paradigm known as MLLM-as-a-Judge. However, their reliability and vulnerabilities to biases remain underexplored. We find that many MLLM judges fail to reliably integrate key visual or textual cues, yielding unreliable evaluations when evidence is missing or mismatched, and exhibiting instability under semantically irrelevant perturbations. To address this, we systematically define Compositional Bias in MLLM-as-a-Judge systems and introduce MM-JudgeBias, a benchmark for evaluating it. MM-JudgeBias introduces controlled perturbations across Query, Image, and Response, and evaluates model behavior via two complementary metrics: Bias-Deviation (BD) for sensitivity and Bias-Conformity (BC) for stability. Our dataset of over 1,800 curated and refined multimodal samples, drawn from 29 source benchmarks, enables a fine-grained diagnosis of nine bias types across diverse tasks and domains. Experiments on 26 state-of-the-art MLLMs reveal systematic modality neglect and asymmetric evaluation tendencies, underscoring the need for more reliable judges.

MM-JudgeBias: Um Benchmark para Avaliação de Vieses Composicionais em MLLM-como-Juiz

MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Resumo

Support