ChatPaper.aiChatPaper

Multi-Taak Versterkend Leren voor Verbeterde Multimodale LLM-als-Rechter

Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge

March 12, 2026
Auteurs: Junjie Wu, Xuan Kan, Zihao He, Shunwen Tan, Bo Pan, Kaitai Zhang
cs.AI

Samenvatting

Multimodale Large Language Models (MLLM's) worden op grote schaal ingezet als 'MLLM-as-a-Judge' vanwege hun sterke overeenkomst met menselijke beoordelingen bij diverse visuele taken. De meeste bestaande beoordelaarsmodellen zijn echter geoptimaliseerd voor scenario's met één taak en hebben moeite om te generaliseren naar uiteenlopende contexten, wat een cruciale voorwaarde is voor betrouwbare evaluatie. Om deze beperking aan te pakken, stellen wij Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge) voor, een raamwerk dat het beoordelaarsmodel gezamenlijk optimaliseert over meerdere taken, waarbij gebruik wordt gemaakt van de generalisatiecapaciteiten van Reinforcement Learning (RL). Experimentele resultaten vergeleken met verschillende sterke baseline-modellen tonen aan dat MT-RL-Judge deze baselines overtreft op zowel consistentie van de beoordeling als correlatie met menselijke voorkeuren. Bovendien vertoont onze aanpak robuuste generalisatie op taken buiten de trainingsdistributie, wat de effectiviteit ervan verder valideert.
English
Multimodal Large Language Models (MLLMs) have been widely adopted as MLLM-as-a-Judges due to their strong alignment with human judgment across various visual tasks. However, most existing judge models are optimized for single-task scenarios and struggle to generalize to diverse contexts, which is a critical requirement for reliable evaluation. To address this limitation, we propose Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge), a framework that jointly optimizes the judge model across multiple tasks, leveraging the generalization capabilities of RL. Experimental results against several strong baselines demonstrate that MT-RL-Judge outperforms strong baselines in both judgment consistency and correlation with human preferences. Furthermore, our approach exhibits robust generalization on out-of-distribution tasks, further validating its effectiveness.
PDF41March 24, 2026