Multitask-Reinforcement-Learning für verbesserte multimodale LLM-as-a-Judge-Systeme

Zusammenfassung

Multimodale Large Language Models (MLLMs) werden aufgrund ihrer hohen Übereinstimmung mit menschlichen Urteilen bei verschiedenen visuellen Aufgaben häufig als „MLLM-as-a-Judge“ eingesetzt. Die meisten vorhandenen Richtermodelle sind jedoch für Einzelaufgaben-Szenarien optimiert und haben Schwierigkeiten, sich auf verschiedene Kontexte zu verallgemeinern, was eine entscheidende Voraussetzung für eine zuverlässige Bewertung ist. Um diese Einschränkung zu adressieren, schlagen wir Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge) vor, ein Framework, das das Richtermodell gemeinsam über mehrere Aufgaben hinweg optimiert und dabei die Verallgemeinerungsfähigkeiten von Reinforcement Learning nutzt. Experimentelle Ergebnisse im Vergleich zu mehreren starken Baseline-Modellen zeigen, dass MT-RL-Judge diese Baselines sowohl in Bezug auf die Urteilskonsistenz als auch die Korrelation mit menschlichen Präferenzen übertrifft. Darüber hinaus zeigt unser Ansatz eine robuste Generalisierungsfähigkeit bei Out-of-Distribution-Aufgaben, was seine Wirksamkeit weiter validiert.

English

Multimodal Large Language Models (MLLMs) have been widely adopted as MLLM-as-a-Judges due to their strong alignment with human judgment across various visual tasks. However, most existing judge models are optimized for single-task scenarios and struggle to generalize to diverse contexts, which is a critical requirement for reliable evaluation. To address this limitation, we propose Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge), a framework that jointly optimizes the judge model across multiple tasks, leveraging the generalization capabilities of RL. Experimental results against several strong baselines demonstrate that MT-RL-Judge outperforms strong baselines in both judgment consistency and correlation with human preferences. Furthermore, our approach exhibits robust generalization on out-of-distribution tasks, further validating its effectiveness.

Multitask-Reinforcement-Learning für verbesserte multimodale LLM-as-a-Judge-Systeme

Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge

Zusammenfassung

Support