Смягчение предвзятости перцептивного суждения в мультимодальной LLM в роли судьи с помощью перцептивного возмущения и моделирования вознаграждения

Аннотация

Недавние мультимодальные большие языковые модели продемонстрировали высокую способность к рассуждению, однако их надежность в качестве автоматических оценщиков по-прежнему ограничена критическим недостатком: когда визуальные данные противоречат текстовым подсказкам, MLLM-судьи склонны отдавать предпочтение правдоподобным повествованиям, а не перцептивно верным ответам. Мы выявляем и систематически анализируем это явление, которое называем перцептивным смещением оценок. С помощью контролируемых визуальных искажений существующие мультимодальные судьи часто ориентируются на текст ответа вместо собственного визуального восприятия, что приводит к противоречивым и непроверяемым оценкам. Для решения этой проблемы мы представляем набор данных с перцептивно нарушенными оценками, который содержит минимально отредактированные контрафактические ответы, изолирующие перцептивные ошибки и обеспечивающие проверяемый контроль. На основе этого набора данных мы разрабатываем унифицированную обучающую структуру, объединяющую структурированное вознаграждение на основе GRPO с функцией ранжирования по пакетам, что позволяет достичь согласованного глобального упорядочения без явных парных меток. Эксперименты на различных бенчмарках MLLM-как-судья показывают, что наш подход значительно улучшает перцептивную точность, согласованность ранжирования и соответствие человеческим оценкам. Полученные результаты демонстрируют масштабируемый и обобщаемый путь обучения мультимодальных судей, которые являются перцептивно обоснованными, интерпретируемыми и устойчивыми к конфликтам визуального восприятия и рассуждения.

English

Recent multimodal large language models have demonstrated strong reasoning ability, yet their reliability as automated evaluators remains limited by a critical weakness: when visual evidence conflicts with textual cues, MLLM judges tend to reward plausible narratives over perceptually correct answers. We identify and systematically analyze this phenomenon, which we term Perceptual Judgment Bias. Through controlled visual perturbations, existing multimodal judges frequently anchor on the response text instead of their own visual perception, leading to inconsistent and non-verifiable evaluations. To address this issue, we introduce the Perceptually Perturbed Judgment Dataset, which constructs minimally edited counterfactual responses that isolate perceptual errors and enable verifiable supervision. Building on this dataset, we develop a unified training framework that combines a structured GRPO-based reward with a batch-ranking objective, achieving coherent global ordering without explicit pairwise labels. Experiments across diverse MLLM-as-a-Judge benchmarks show that our approach substantially improves perceptual fidelity, ranking coherence, and alignment with human evaluation. Our results establish a scalable and generalizable pathway for training multimodal judges that are perceptually grounded, interpretable, and robust to visual-reasoning conflicts.