Mitigando o Viés de Julgamento Perceptual em LLM Multimodal como Juiz por meio de Perturbação Perceptual e Modelagem de Recompensa

Resumo

Modelos de linguagem grandes multimodais recentes demonstraram forte capacidade de raciocínio, mas sua confiabilidade como avaliadores automatizados ainda é limitada por uma fragilidade crítica: quando evidências visuais entram em conflito com pistas textuais, os juízes MLLM tendem a recompensar narrativas plausíveis em detrimento de respostas perceptualmente corretas. Identificamos e analisamos sistematicamente esse fenômeno, ao qual denominamos Viés de Julgamento Perceptual. Por meio de perturbações visuais controladas, os juízes multimodais existentes frequentemente se ancoram no texto da resposta em vez de sua própria percepção visual, gerando avaliações inconsistentes e não verificáveis. Para enfrentar esse problema, apresentamos o Conjunto de Dados de Julgamento com Perturbações Perceptuais, que constrói respostas contrafactuais minimamente editadas que isolam erros perceptuais e possibilitam supervisão verificável. Com base nesse conjunto de dados, desenvolvemos um quadro de treinamento unificado que combina uma recompensa estruturada baseada em GRPO com um objetivo de classificação por lote, alcançando uma ordenação global coerente sem a necessidade de rótulos pareados explícitos. Experimentos em diversos benchmarks de MLLM como Juiz mostram que nossa abordagem melhora substancialmente a fidelidade perceptual, a coerência de classificação e o alinhamento com a avaliação humana. Nossos resultados estabelecem um caminho escalável e generalizável para treinar juízes multimodais que sejam perceptualmente fundamentados, interpretáveis e robustos a conflitos entre raciocínio visual e textual.

English

Recent multimodal large language models have demonstrated strong reasoning ability, yet their reliability as automated evaluators remains limited by a critical weakness: when visual evidence conflicts with textual cues, MLLM judges tend to reward plausible narratives over perceptually correct answers. We identify and systematically analyze this phenomenon, which we term Perceptual Judgment Bias. Through controlled visual perturbations, existing multimodal judges frequently anchor on the response text instead of their own visual perception, leading to inconsistent and non-verifiable evaluations. To address this issue, we introduce the Perceptually Perturbed Judgment Dataset, which constructs minimally edited counterfactual responses that isolate perceptual errors and enable verifiable supervision. Building on this dataset, we develop a unified training framework that combines a structured GRPO-based reward with a batch-ranking objective, achieving coherent global ordering without explicit pairwise labels. Experiments across diverse MLLM-as-a-Judge benchmarks show that our approach substantially improves perceptual fidelity, ranking coherence, and alignment with human evaluation. Our results establish a scalable and generalizable pathway for training multimodal judges that are perceptually grounded, interpretable, and robust to visual-reasoning conflicts.