JudgeLRM: Модели масштабного рассуждения в роли судьи
JudgeLRM: Large Reasoning Models as a Judge
March 31, 2025
Авторы: Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He
cs.AI
Аннотация
Возникновение крупных языковых моделей (LLM) в качестве инструментов оценки предлагает масштабируемую альтернативу аннотированию людьми, однако существующие подходы к обучению с учителем (Supervised Fine-Tuning, SFT) для моделей-судей часто оказываются недостаточными в областях, требующих сложного рассуждения. В данной работе мы исследуем, действительно ли судьи на основе LLM выигрывают от улучшенных способностей к рассуждению. Благодаря детальному анализу требований к рассуждению в задачах оценки мы выявляем отрицательную корреляцию между улучшением производительности SFT и долей выборок, требующих сложного рассуждения, что подчеркивает ограничения SFT в таких сценариях. Для решения этой проблемы мы представляем JudgeLRM — семейство LLM, ориентированных на выполнение судейских функций и обученных с использованием обучения с подкреплением (Reinforcement Learning, RL) с вознаграждениями, основанными на результатах судейства. Модели JudgeLRM стабильно превосходят как модели, настроенные с помощью SFT, так и современные модели рассуждения. В частности, JudgeLRM-3B превосходит GPT-4, а JudgeLRM-7B опережает DeepSeek-R1 на 2,79% по показателю F1, особенно выделяясь в задачах судейства, требующих глубокого рассуждения.
English
The rise of Large Language Models (LLMs) as evaluators offers a scalable
alternative to human annotation, yet existing Supervised Fine-Tuning (SFT) for
judges approaches often fall short in domains requiring complex reasoning. In
this work, we investigate whether LLM judges truly benefit from enhanced
reasoning capabilities. Through a detailed analysis of reasoning requirements
across evaluation tasks, we reveal a negative correlation between SFT
performance gains and the proportion of reasoning-demanding samples -
highlighting the limitations of SFT in such scenarios. To address this, we
introduce JudgeLRM, a family of judgment-oriented LLMs trained using
reinforcement learning (RL) with judge-wise, outcome-driven rewards. JudgeLRM
models consistently outperform both SFT-tuned and state-of-the-art reasoning
models. Notably, JudgeLRM-3B surpasses GPT-4, and JudgeLRM-7B outperforms
DeepSeek-R1 by 2.79% in F1 score, particularly excelling in judge tasks
requiring deep reasoning.Summary
AI-Generated Summary