ChatPaper.aiChatPaper

Aprendizagem por Reforço Multitarefa para Aprimoramento de LLM Multimodal como Juiz

Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge

March 12, 2026
Autores: Junjie Wu, Xuan Kan, Zihao He, Shunwen Tan, Bo Pan, Kaitai Zhang
cs.AI

Resumo

Os Modelos de Linguagem de Grande Porte Multimodais (MLLMs) têm sido amplamente adotados como "MLLM-como-Avaliadores" devido à sua forte correlação com o julgamento humano em diversas tarefas visuais. No entanto, a maioria dos modelos avaliadores existentes é otimizada para cenários de tarefa única e tem dificuldade em generalizar para contextos diversos, um requisito crítico para uma avaliação confiável. Para superar esta limitação, propomos o Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge), uma estrutura que otimiza conjuntamente o modelo avaliador em múltiplas tarefas, aproveitando as capacidades de generalização do RL. Resultados experimentais comparados com várias linhas de base robustas demonstram que o MT-RL-Judge supera as baselines fortes tanto na consistência do julgamento quanto na correlação com as preferências humanas. Além disso, nossa abordagem exibe generalização robusta em tarefas fora da distribuição, validando ainda mais sua eficácia.
English
Multimodal Large Language Models (MLLMs) have been widely adopted as MLLM-as-a-Judges due to their strong alignment with human judgment across various visual tasks. However, most existing judge models are optimized for single-task scenarios and struggle to generalize to diverse contexts, which is a critical requirement for reliable evaluation. To address this limitation, we propose Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge), a framework that jointly optimizes the judge model across multiple tasks, leveraging the generalization capabilities of RL. Experimental results against several strong baselines demonstrate that MT-RL-Judge outperforms strong baselines in both judgment consistency and correlation with human preferences. Furthermore, our approach exhibits robust generalization on out-of-distribution tasks, further validating its effectiveness.
PDF41March 29, 2026