ChatPaper.aiChatPaper

Apprentissage par Renforcement Multi-Tâches pour une Évaluation Améliorée des LLM Multimodaux en Tant que Juges

Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge

March 12, 2026
Auteurs: Junjie Wu, Xuan Kan, Zihao He, Shunwen Tan, Bo Pan, Kaitai Zhang
cs.AI

Résumé

Les modèles de langage de grande taille multimodaux (MLLM) sont largement adoptés en tant qu'évaluateurs (MLLM-as-a-Judge) en raison de leur forte alignement avec le jugement humain dans diverses tâches visuelles. Cependant, la plupart des modèles évaluateurs existants sont optimisés pour des scénarios à tâche unique et peinent à généraliser à des contextes diversifiés, ce qui constitue une exigence cruciale pour une évaluation fiable. Pour remédier à cette limitation, nous proposons MT-RL-Judge (Multi-Task Reinforcement Learning for MLLM-as-a-Judge), un cadre qui optimise conjointement le modèle évaluateur sur plusieurs tâches en exploitant les capacités de généralisation de l'apprentissage par renforcement. Les résultats expérimentaux comparés à plusieurs modèles de référence démontrent que MT-RL-Judge surpasse ces bases solides tant en cohérence des jugements qu'en corrélation avec les préférences humaines. De plus, notre approche présente une généralisation robuste sur des tâches hors distribution, validant ainsi davantage son efficacité.
English
Multimodal Large Language Models (MLLMs) have been widely adopted as MLLM-as-a-Judges due to their strong alignment with human judgment across various visual tasks. However, most existing judge models are optimized for single-task scenarios and struggle to generalize to diverse contexts, which is a critical requirement for reliable evaluation. To address this limitation, we propose Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge), a framework that jointly optimizes the judge model across multiple tasks, leveraging the generalization capabilities of RL. Experimental results against several strong baselines demonstrate that MT-RL-Judge outperforms strong baselines in both judgment consistency and correlation with human preferences. Furthermore, our approach exhibits robust generalization on out-of-distribution tasks, further validating its effectiveness.
PDF31March 15, 2026