Многозадачное обучение с подкреплением для повышения эффективности мультимодальных LLM-систем в роли оценщиков
Multi-Task Reinforcement Learning for Enhanced Multimodal LLM-as-a-Judge
March 12, 2026
Авторы: Junjie Wu, Xuan Kan, Zihao He, Shunwen Tan, Bo Pan, Kaitai Zhang
cs.AI
Аннотация
Мультимодальные большие языковые модели (MLLM) широко применяются в качестве «MLLM-как-оценщиков» благодаря их высокой согласованности с человеческими суждениями в различных визуальных задачах. Однако большинство существующих моделей-оценщиков оптимизированы для сценариев с единичной задачей и с трудом обобщаются на разнообразные контексты, что является критически важным требованием для надежной оценки. Для преодоления этого ограничения мы предлагаем фреймворк Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge), который совместно оптимизирует модель-оценщик для множества задач, используя способности к обобщению, присущие обучению с подкреплением (RL). Результаты экспериментов в сравнении с несколькими сильными базовыми методами демонстрируют, что MT-RL-Judge превосходит их как по согласованности оценок, так и по корреляции с человеческими предпочтениями. Кроме того, наш подход демонстрирует robustную обобщающую способность на задачах с выходом из распределения данных, что дополнительно подтверждает его эффективность.
English
Multimodal Large Language Models (MLLMs) have been widely adopted as MLLM-as-a-Judges due to their strong alignment with human judgment across various visual tasks. However, most existing judge models are optimized for single-task scenarios and struggle to generalize to diverse contexts, which is a critical requirement for reliable evaluation. To address this limitation, we propose Multi-Task Reinforcement Learning for MLLM-as-a-Judge (MT-RL-Judge), a framework that jointly optimizes the judge model across multiple tasks, leveraging the generalization capabilities of RL. Experimental results against several strong baselines demonstrate that MT-RL-Judge outperforms strong baselines in both judgment consistency and correlation with human preferences. Furthermore, our approach exhibits robust generalization on out-of-distribution tasks, further validating its effectiveness.