Apprendimento per Rinforzo Multi-Task per Potenziare i Modelli Linguistici Multimodali nel Ruolo di Giudice
Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge
March 12, 2026
Autori: Junjie Wu, Xuan Kan, Zihao He, Shunwen Tan, Bo Pan, Kaitai Zhang
cs.AI
Abstract
I Modelli Linguistici Multimodali di Grande Scala (MLLM) sono stati ampiamente adottati nella veste di "giudici" (MLLM-as-a-Judge) grazie al loro forte allineamento con il giudizio umano in varie attività visive. Tuttavia, la maggior parte dei modelli giudice esistenti è ottimizzata per scenari a compito singolo e fatica a generalizzare verso contesti diversi, un requisito fondamentale per una valutazione affidabile. Per affrontare questa limitazione, proponiamo l'Apprendimento per Rinforzo Multi-Task per MLLM-as-a-Judge (MT-RL-Judge), un framework che ottimizza congiuntamente il modello giudice su più task, sfruttando le capacità di generalizzazione dell'RL. I risultati sperimentali, confrontati con diverse baseline solide, dimostrano che MT-RL-Judge supera le baseline di riferimento sia nella coerenza dei giudizi che nella correlazione con le preferenze umane. Inoltre, il nostro approccio mostra una robusta generalizzazione su task fuori distribuzione, convalidandone ulteriormente l'efficacia.
English
Multimodal Large Language Models (MLLMs) have been widely adopted as MLLM-as-a-Judges due to their strong alignment with human judgment across various visual tasks. However, most existing judge models are optimized for single-task scenarios and struggle to generalize to diverse contexts, which is a critical requirement for reliable evaluation. To address this limitation, we propose Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge), a framework that jointly optimizes the judge model across multiple tasks, leveraging the generalization capabilities of RL. Experimental results against several strong baselines demonstrate that MT-RL-Judge outperforms strong baselines in both judgment consistency and correlation with human preferences. Furthermore, our approach exhibits robust generalization on out-of-distribution tasks, further validating its effectiveness.