ChatPaper.aiChatPaper

Multitask-Reinforcement-Learning für verbesserte multimodale LLM-as-a-Judge-Systeme

Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge

March 12, 2026
Autoren: Junjie Wu, Xuan Kan, Zihao He, Shunwen Tan, Bo Pan, Kaitai Zhang
cs.AI

Zusammenfassung

Multimodale Large Language Models (MLLMs) werden aufgrund ihrer hohen Übereinstimmung mit menschlichen Urteilen bei verschiedenen visuellen Aufgaben häufig als „MLLM-as-a-Judge“ eingesetzt. Die meisten vorhandenen Richtermodelle sind jedoch für Einzelaufgaben-Szenarien optimiert und haben Schwierigkeiten, sich auf verschiedene Kontexte zu verallgemeinern, was eine entscheidende Voraussetzung für eine zuverlässige Bewertung ist. Um diese Einschränkung zu adressieren, schlagen wir Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge) vor, ein Framework, das das Richtermodell gemeinsam über mehrere Aufgaben hinweg optimiert und dabei die Verallgemeinerungsfähigkeiten von Reinforcement Learning nutzt. Experimentelle Ergebnisse im Vergleich zu mehreren starken Baseline-Modellen zeigen, dass MT-RL-Judge diese Baselines sowohl in Bezug auf die Urteilskonsistenz als auch die Korrelation mit menschlichen Präferenzen übertrifft. Darüber hinaus zeigt unser Ansatz eine robuste Generalisierungsfähigkeit bei Out-of-Distribution-Aufgaben, was seine Wirksamkeit weiter validiert.
English
Multimodal Large Language Models (MLLMs) have been widely adopted as MLLM-as-a-Judges due to their strong alignment with human judgment across various visual tasks. However, most existing judge models are optimized for single-task scenarios and struggle to generalize to diverse contexts, which is a critical requirement for reliable evaluation. To address this limitation, we propose Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge), a framework that jointly optimizes the judge model across multiple tasks, leveraging the generalization capabilities of RL. Experimental results against several strong baselines demonstrate that MT-RL-Judge outperforms strong baselines in both judgment consistency and correlation with human preferences. Furthermore, our approach exhibits robust generalization on out-of-distribution tasks, further validating its effectiveness.
PDF31March 15, 2026