Mitigación del sesgo de juicio perceptual en el LLM multimodal como juez mediante perturbación perceptual y modelado de recompensas

Resumen

Recientes modelos de lenguaje grandes multimodales han demostrado una sólida capacidad de razonamiento; sin embargo, su fiabilidad como evaluadores automatizados sigue siendo limitada por una debilidad crítica: cuando la evidencia visual entra en conflicto con las señales textuales, los evaluadores MLLM tienden a recompensar narrativas plausibles por encima de respuestas perceptuales correctas. Identificamos y analizamos sistemáticamente este fenómeno, al que denominamos Sesgo de Juicio Perceptual. Mediante perturbaciones visuales controladas, los evaluadores multimodales existentes se anclan frecuentemente en el texto de la respuesta en lugar de en su propia percepción visual, lo que genera evaluaciones inconsistentes y no verificables. Para abordar este problema, introducimos el Conjunto de Datos de Juicio con Perturbaciones Perceptuales, que construye respuestas contrafactuales mínimamente editadas que aíslan errores perceptuales y permiten una supervisión verificable. Basándonos en este conjunto, desarrollamos un marco de entrenamiento unificado que combina una recompensa estructurada basada en GRPO con un objetivo de clasificación por lotes, logrando un ordenamiento global coherente sin etiquetas explícitas por pares. Los experimentos en diversos puntos de referencia de MLLM como Juez muestran que nuestro enfoque mejora sustancialmente la fidelidad perceptual, la coherencia de la clasificación y la alineación con la evaluación humana. Nuestros resultados establecen una vía escalable y generalizable para entrenar evaluadores multimodales que sean perceptuales, interpretables y robustos frente a conflictos entre razonamiento visual.

English

Recent multimodal large language models have demonstrated strong reasoning ability, yet their reliability as automated evaluators remains limited by a critical weakness: when visual evidence conflicts with textual cues, MLLM judges tend to reward plausible narratives over perceptually correct answers. We identify and systematically analyze this phenomenon, which we term Perceptual Judgment Bias. Through controlled visual perturbations, existing multimodal judges frequently anchor on the response text instead of their own visual perception, leading to inconsistent and non-verifiable evaluations. To address this issue, we introduce the Perceptually Perturbed Judgment Dataset, which constructs minimally edited counterfactual responses that isolate perceptual errors and enable verifiable supervision. Building on this dataset, we develop a unified training framework that combines a structured GRPO-based reward with a batch-ranking objective, achieving coherent global ordering without explicit pairwise labels. Experiments across diverse MLLM-as-a-Judge benchmarks show that our approach substantially improves perceptual fidelity, ranking coherence, and alignment with human evaluation. Our results establish a scalable and generalizable pathway for training multimodal judges that are perceptually grounded, interpretable, and robust to visual-reasoning conflicts.