JudgeLRM: Grote Redeneermodellen als Rechter
JudgeLRM: Large Reasoning Models as a Judge
March 31, 2025
Auteurs: Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He
cs.AI
Samenvatting
De opkomst van Large Language Models (LLMs) als evaluatoren biedt een schaalbare
alternatief voor menselijke annotatie, maar bestaande benaderingen van Supervised
Fine-Tuning (SFT) voor beoordelaars schieten vaak tekort in domeinen die complexe
redenering vereisen. In dit werk onderzoeken we of LLM-beoordelaars daadwerkelijk
baat hebben bij verbeterde redeneervaardigheden. Door een gedetailleerde analyse
van de redeneereisen in evaluatietaken, onthullen we een negatieve correlatie
tussen de prestatieverbeteringen van SFT en het aandeel van monsters die veel
redenering vereisen – wat de beperkingen van SFT in dergelijke scenario's
benadrukt. Om dit aan te pakken, introduceren we JudgeLRM, een familie van
beoordelingsgerichte LLMs die zijn getraind met reinforcement learning (RL) met
beoordelaarsgerichte, uitkomstgestuurde beloningen. JudgeLRM-modellen presteren
consistent beter dan zowel SFT-getunede als state-of-the-art redeneermodellen.
Opmerkelijk is dat JudgeLRM-3B GPT-4 overtreft, en JudgeLRM-7B DeepSeek-R1 met
2,79% verslaat in F1-score, met name uitblinkend in beoordelingstaken die diepe
redenering vereisen.
English
The rise of Large Language Models (LLMs) as evaluators offers a scalable
alternative to human annotation, yet existing Supervised Fine-Tuning (SFT) for
judges approaches often fall short in domains requiring complex reasoning. In
this work, we investigate whether LLM judges truly benefit from enhanced
reasoning capabilities. Through a detailed analysis of reasoning requirements
across evaluation tasks, we reveal a negative correlation between SFT
performance gains and the proportion of reasoning-demanding samples -
highlighting the limitations of SFT in such scenarios. To address this, we
introduce JudgeLRM, a family of judgment-oriented LLMs trained using
reinforcement learning (RL) with judge-wise, outcome-driven rewards. JudgeLRM
models consistently outperform both SFT-tuned and state-of-the-art reasoning
models. Notably, JudgeLRM-3B surpasses GPT-4, and JudgeLRM-7B outperforms
DeepSeek-R1 by 2.79% in F1 score, particularly excelling in judge tasks
requiring deep reasoning.Summary
AI-Generated Summary