JudgeLRM : Les grands modèles de raisonnement en tant qu'arbitres
JudgeLRM: Large Reasoning Models as a Judge
March 31, 2025
Auteurs: Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He
cs.AI
Résumé
L'essor des modèles de langage de grande taille (LLMs) en tant qu'évaluateurs offre une alternative évolutive à l'annotation humaine, mais les approches existantes de Fine-Tuning Supervisé (SFT) pour les juges se révèlent souvent insuffisantes dans les domaines nécessitant un raisonnement complexe. Dans ce travail, nous examinons si les juges LLMs bénéficient véritablement de capacités de raisonnement améliorées. À travers une analyse détaillée des exigences de raisonnement dans les tâches d'évaluation, nous révélons une corrélation négative entre les gains de performance du SFT et la proportion d'échantillons exigeant un raisonnement approfondi, mettant en lumière les limites du SFT dans de tels scénarios. Pour remédier à cela, nous introduisons JudgeLRM, une famille de LLMs orientés vers le jugement, entraînés à l'aide de l'apprentissage par renforcement (RL) avec des récompenses axées sur les résultats et spécifiques aux juges. Les modèles JudgeLRM surpassent systématiquement à la fois les modèles ajustés par SFT et les modèles de raisonnement de pointe. Notamment, JudgeLRM-3B dépasse GPT-4, et JudgeLRM-7B surpasse DeepSeek-R1 de 2,79 % en score F1, excellant particulièrement dans les tâches de jugement nécessitant un raisonnement approfondi.
English
The rise of Large Language Models (LLMs) as evaluators offers a scalable
alternative to human annotation, yet existing Supervised Fine-Tuning (SFT) for
judges approaches often fall short in domains requiring complex reasoning. In
this work, we investigate whether LLM judges truly benefit from enhanced
reasoning capabilities. Through a detailed analysis of reasoning requirements
across evaluation tasks, we reveal a negative correlation between SFT
performance gains and the proportion of reasoning-demanding samples -
highlighting the limitations of SFT in such scenarios. To address this, we
introduce JudgeLRM, a family of judgment-oriented LLMs trained using
reinforcement learning (RL) with judge-wise, outcome-driven rewards. JudgeLRM
models consistently outperform both SFT-tuned and state-of-the-art reasoning
models. Notably, JudgeLRM-3B surpasses GPT-4, and JudgeLRM-7B outperforms
DeepSeek-R1 by 2.79% in F1 score, particularly excelling in judge tasks
requiring deep reasoning.Summary
AI-Generated Summary