Atténuation du biais de jugement perceptuel dans le juge LLM multimodal via la perturbation perceptuelle et la modélisation de récompense

Résumé

Les récents modèles de langage multimodaux de grande taille ont démontré de solides capacités de raisonnement, mais leur fiabilité en tant qu'évaluateurs automatisés reste limitée par une faiblesse cruciale : lorsque les preuves visuelles entrent en conflit avec les indices textuels, les juges MLLM tendent à privilégier les récits plausibles plutôt que les réponses correctes sur le plan perceptuel. Nous identifions et analysons systématiquement ce phénomène, que nous appelons le biais de jugement perceptuel. À travers des perturbations visuelles contrôlées, les juges multimodaux existants s'ancrent fréquemment sur le texte de réponse plutôt que sur leur propre perception visuelle, ce qui conduit à des évaluations incohérentes et non vérifiables. Pour remédier à ce problème, nous introduisons l'ensemble de données de jugement perturbé perceptuellement, qui construit des réponses contrefactuelles minimalement éditées isolant les erreurs perceptuelles et permettant une supervision vérifiable. En nous appuyant sur cet ensemble de données, nous développons un cadre d'entraînement unifié combinant une récompense structurée basée sur GRPO avec un objectif de classement par lots, atteignant un ordre global cohérent sans étiquettes explicites par paires. Des expériences menées sur divers benchmarks MLLM-as-a-Judge montrent que notre approche améliore considérablement la fidélité perceptuelle, la cohérence du classement et l'alignement avec l'évaluation humaine. Nos résultats établissent une voie scalable et généralisable pour entraîner des juges multimodaux ancrés perceptuellement, interprétables et robustes face aux conflits visuo-rationnels.

English

Recent multimodal large language models have demonstrated strong reasoning ability, yet their reliability as automated evaluators remains limited by a critical weakness: when visual evidence conflicts with textual cues, MLLM judges tend to reward plausible narratives over perceptually correct answers. We identify and systematically analyze this phenomenon, which we term Perceptual Judgment Bias. Through controlled visual perturbations, existing multimodal judges frequently anchor on the response text instead of their own visual perception, leading to inconsistent and non-verifiable evaluations. To address this issue, we introduce the Perceptually Perturbed Judgment Dataset, which constructs minimally edited counterfactual responses that isolate perceptual errors and enable verifiable supervision. Building on this dataset, we develop a unified training framework that combines a structured GRPO-based reward with a batch-ranking objective, achieving coherent global ordering without explicit pairwise labels. Experiments across diverse MLLM-as-a-Judge benchmarks show that our approach substantially improves perceptual fidelity, ranking coherence, and alignment with human evaluation. Our results establish a scalable and generalizable pathway for training multimodal judges that are perceptually grounded, interpretable, and robust to visual-reasoning conflicts.