MM-JudgeBias: MLLM 평가자의 구성적 편향 평가를 위한 벤치마크
MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge
April 20, 2026
저자: Sua Lee, Sanghee Park, Jinbae Im
cs.AI
초록
멀티모달 대규모 언어 모델(MLLM)은 MLLM-as-a-Judge로 알려진 패러다임 하에 자동 평가자로 점점 더 많이 활용되고 있습니다. 그러나 그 신뢰성과 편향에 대한 취약성은 아직 충분히 연구되지 않았습니다. 우리는 많은 MLLM 평가자가 핵심 시각적 또는 텍스트적 단서를 안정적으로 통합하지 못해, 증거가 누락되거나 불일치할 경우 신뢰할 수 없는 평가를 내리고 의미론적으로 무관한 변화에도 불안정성을 보인다는 사실을 발견했습니다. 이를 해결하기 위해 우리는 MLLM-as-a-Judge 시스템의 구성적 편향(Compositional Bias)을 체계적으로 정의하고, 이를 평가하기 위한 벤치마크인 MM-JudgeBias를 소개합니다. MM-JudgeBias는 질의(Query), 이미지(Image), 응답(Response)에 걸쳐 통제된 변화를 도입하고, 두 가지 상호 보완적인 지표를 통해 모델 동작을 평가합니다: 민감도를 측정하는 편향-편차(Bias-Deviation, BD)와 안정성을 측정하는 편향-일관성(Bias-Conformity, BC). 29개의 소스 벤치마크에서 추출하고 정제한 1,800개 이상의 멀티모달 샘플로 구성된 우리의 데이터셋은 다양한 작업과 도메인에 걸친 9가지 편향 유형에 대한 세분화된 진단을 가능하게 합니다. 26개의 최첨단 MLLM에 대한 실험은 체계적인 모달리티 간과 및 비대칭적 평가 경향을 드러내며, 더 신뢰할 수 있는 평가자의 필요성을 강조합니다.
English
Multimodal Large Language Models (MLLMs) have been increasingly used as automatic evaluators-a paradigm known as MLLM-as-a-Judge. However, their reliability and vulnerabilities to biases remain underexplored. We find that many MLLM judges fail to reliably integrate key visual or textual cues, yielding unreliable evaluations when evidence is missing or mismatched, and exhibiting instability under semantically irrelevant perturbations. To address this, we systematically define Compositional Bias in MLLM-as-a-Judge systems and introduce MM-JudgeBias, a benchmark for evaluating it. MM-JudgeBias introduces controlled perturbations across Query, Image, and Response, and evaluates model behavior via two complementary metrics: Bias-Deviation (BD) for sensitivity and Bias-Conformity (BC) for stability. Our dataset of over 1,800 curated and refined multimodal samples, drawn from 29 source benchmarks, enables a fine-grained diagnosis of nine bias types across diverse tasks and domains. Experiments on 26 state-of-the-art MLLMs reveal systematic modality neglect and asymmetric evaluation tendencies, underscoring the need for more reliable judges.