ChatPaper.aiChatPaper

Aprendizaje por Refuerzo Multitarea para la Mejora de LLM Multimodales como Evaluadores

Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge

March 12, 2026
Autores: Junjie Wu, Xuan Kan, Zihao He, Shunwen Tan, Bo Pan, Kaitai Zhang
cs.AI

Resumen

Los Modelos de Lenguaje Grandes Multimodales (MLLMs) han sido ampliamente adoptados como "MLLM-como-Jueces" debido a su fuerte alineación con el criterio humano en diversas tareas visuales. Sin embargo, la mayoría de los modelos jueces existentes están optimizados para escenarios de tarea única y tienen dificultades para generalizar a contextos diversos, un requisito crítico para una evaluación fiable. Para abordar esta limitación, proponemos el Aprendizaje por Refuerzo Multitarea para MLLM-como-Juez (MT-RL-Judge), un marco que optimiza conjuntamente el modelo juez en múltiples tareas, aprovechando las capacidades de generalización del AR. Los resultados experimentales frente a varias líneas base sólidas demuestran que MT-RL-Judge supera a estas líneas base tanto en consistencia de juicio como en correlación con las preferencias humanas. Además, nuestro enfoque exhibe una generalización robusta en tareas fuera de distribución, validando aún más su eficacia.
English
Multimodal Large Language Models (MLLMs) have been widely adopted as MLLM-as-a-Judges due to their strong alignment with human judgment across various visual tasks. However, most existing judge models are optimized for single-task scenarios and struggle to generalize to diverse contexts, which is a critical requirement for reliable evaluation. To address this limitation, we propose Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge), a framework that jointly optimizes the judge model across multiple tasks, leveraging the generalization capabilities of RL. Experimental results against several strong baselines demonstrate that MT-RL-Judge outperforms strong baselines in both judgment consistency and correlation with human preferences. Furthermore, our approach exhibits robust generalization on out-of-distribution tasks, further validating its effectiveness.
PDF31March 15, 2026