Het mitigeren van perceptuele oordeelsbias in multimodale LLM-als-rechter via perceptuele perturbatie en beloningsmodellering

Samenvatting

Recente multimodale grote taalmodellen hebben een sterk redeneervermogen getoond, maar hun betrouwbaarheid als geautomatiseerde beoordelaars blijft beperkt door een kritieke zwakte: wanneer visueel bewijs in conflict is met tekstuele aanwijzingen, belonen MLLM-beoordelaars vaak plausibele verhalen boven perceptueel correcte antwoorden. We identificeren en analyseren systematisch dit fenomeen, dat we Perceptual Judgment Bias noemen. Door middel van gecontroleerde visuele perturbaties verankeren bestaande multimodale beoordelaars zich vaak op de antwoordtekst in plaats van op hun eigen visuele perceptie, wat leidt tot inconsistente en niet-verifieerbare evaluaties. Om dit probleem aan te pakken, introduceren we de Perceptually Perturbed Judgment Dataset, die minimaal bewerkte tegenfeitelijke antwoorden construeert die perceptuele fouten isoleren en verifieerbare supervisie mogelijk maken. Voortbouwend op deze dataset ontwikkelen we een uniform trainingsraamwerk dat een gestructureerde GRPO-gebaseerde beloning combineert met een batch-ranking-doelstelling, wat een coherente globale ordening bereikt zonder expliciete paarsgewijze labels. Experimenten op diverse MLLM-as-a-Judge-benchmarks tonen aan dat onze aanpak de perceptuele betrouwbaarheid, de coherentie van de rangschikking en de overeenstemming met menselijke evaluatie aanzienlijk verbetert. Onze resultaten leggen een schaalbare en generaliseerbare weg voor het trainen van multimodale beoordelaars die perceptueel gegrond, interpreteerbaar en robuust zijn tegen visueel-redeneerconflicten.

English

Recent multimodal large language models have demonstrated strong reasoning ability, yet their reliability as automated evaluators remains limited by a critical weakness: when visual evidence conflicts with textual cues, MLLM judges tend to reward plausible narratives over perceptually correct answers. We identify and systematically analyze this phenomenon, which we term Perceptual Judgment Bias. Through controlled visual perturbations, existing multimodal judges frequently anchor on the response text instead of their own visual perception, leading to inconsistent and non-verifiable evaluations. To address this issue, we introduce the Perceptually Perturbed Judgment Dataset, which constructs minimally edited counterfactual responses that isolate perceptual errors and enable verifiable supervision. Building on this dataset, we develop a unified training framework that combines a structured GRPO-based reward with a batch-ranking objective, achieving coherent global ordering without explicit pairwise labels. Experiments across diverse MLLM-as-a-Judge benchmarks show that our approach substantially improves perceptual fidelity, ranking coherence, and alignment with human evaluation. Our results establish a scalable and generalizable pathway for training multimodal judges that are perceptually grounded, interpretable, and robust to visual-reasoning conflicts.