Minderung der Wahrnehmungsurteilsverzerrung bei multimodalen LLM-als-Richtern durch Wahrnehmungsperturbation und Belohnungsmodellierung

Zusammenfassung

Aktuelle multimodale große Sprachmodelle (MLLMs) haben eine starke Argumentationsfähigkeit gezeigt, doch ihre Zuverlässigkeit als automatische Bewerter bleibt durch eine entscheidende Schwäche eingeschränkt: Wenn visuelle Evidenz mit textuellen Hinweisen kollidiert, neigen MLLM-Richter dazu, plausible Erzählungen gegenüber wahrnehmungsgetreuen Antworten zu belohnen. Wir identifizieren und analysieren dieses Phänomen systematisch und bezeichnen es als Wahrnehmungsurteilsverzerrung (Perceptual Judgment Bias). Durch kontrollierte visuelle Störungen zeigen wir, dass bestehende multimodale Bewerter sich häufig auf den Antworttext verankern, anstatt auf ihre eigene visuelle Wahrnehmung, was zu inkonsistenten und nicht verifizierbaren Bewertungen führt. Um dieses Problem zu adressieren, führen wir den Perceptually Perturbed Judgment Dataset ein, der minimal editierte kontrafaktische Antworten konstruiert, die Wahrnehmungsfehler isolieren und verifizierbare Überwachung ermöglichen. Aufbauend auf diesem Datensatz entwickeln wir ein einheitliches Trainingsframework, das eine strukturierte GRPO-basierte Belohnungsfunktion mit einem Batch-Ranking-Ziel kombiniert und so eine kohärente globale Ordnung ohne explizite Paarannotationen erreicht. Experimente über verschiedene MLLM-als-Richter-Benchmarks hinweg zeigen, dass unser Ansatz die Wahrnehmungstreue, die Ranking-Kohärenz und die Übereinstimmung mit menschlichen Bewertungen erheblich verbessert. Unsere Ergebnisse etablieren einen skalierbaren und verallgemeinerbaren Weg für das Training multimodaler Richter, die wahrnehmungsbasiert, interpretierbar und robust gegenüber visuell-logischen Konflikten sind.

English

Recent multimodal large language models have demonstrated strong reasoning ability, yet their reliability as automated evaluators remains limited by a critical weakness: when visual evidence conflicts with textual cues, MLLM judges tend to reward plausible narratives over perceptually correct answers. We identify and systematically analyze this phenomenon, which we term Perceptual Judgment Bias. Through controlled visual perturbations, existing multimodal judges frequently anchor on the response text instead of their own visual perception, leading to inconsistent and non-verifiable evaluations. To address this issue, we introduce the Perceptually Perturbed Judgment Dataset, which constructs minimally edited counterfactual responses that isolate perceptual errors and enable verifiable supervision. Building on this dataset, we develop a unified training framework that combines a structured GRPO-based reward with a batch-ranking objective, achieving coherent global ordering without explicit pairwise labels. Experiments across diverse MLLM-as-a-Judge benchmarks show that our approach substantially improves perceptual fidelity, ranking coherence, and alignment with human evaluation. Our results establish a scalable and generalizable pathway for training multimodal judges that are perceptually grounded, interpretable, and robust to visual-reasoning conflicts.