ChatPaper.aiChatPaper

JudgeLRM: Grote Redeneermodellen als Rechter

JudgeLRM: Large Reasoning Models as a Judge

March 31, 2025
Auteurs: Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He
cs.AI

Samenvatting

De opkomst van Large Language Models (LLMs) als evaluatoren biedt een schaalbare alternatief voor menselijke annotatie, maar bestaande benaderingen van Supervised Fine-Tuning (SFT) voor beoordelaars schieten vaak tekort in domeinen die complexe redenering vereisen. In dit werk onderzoeken we of LLM-beoordelaars daadwerkelijk baat hebben bij verbeterde redeneervaardigheden. Door een gedetailleerde analyse van de redeneereisen in evaluatietaken, onthullen we een negatieve correlatie tussen de prestatieverbeteringen van SFT en het aandeel van monsters die veel redenering vereisen – wat de beperkingen van SFT in dergelijke scenario's benadrukt. Om dit aan te pakken, introduceren we JudgeLRM, een familie van beoordelingsgerichte LLMs die zijn getraind met reinforcement learning (RL) met beoordelaarsgerichte, uitkomstgestuurde beloningen. JudgeLRM-modellen presteren consistent beter dan zowel SFT-getunede als state-of-the-art redeneermodellen. Opmerkelijk is dat JudgeLRM-3B GPT-4 overtreft, en JudgeLRM-7B DeepSeek-R1 met 2,79% verslaat in F1-score, met name uitblinkend in beoordelingstaken die diepe redenering vereisen.
English
The rise of Large Language Models (LLMs) as evaluators offers a scalable alternative to human annotation, yet existing Supervised Fine-Tuning (SFT) for judges approaches often fall short in domains requiring complex reasoning. In this work, we investigate whether LLM judges truly benefit from enhanced reasoning capabilities. Through a detailed analysis of reasoning requirements across evaluation tasks, we reveal a negative correlation between SFT performance gains and the proportion of reasoning-demanding samples - highlighting the limitations of SFT in such scenarios. To address this, we introduce JudgeLRM, a family of judgment-oriented LLMs trained using reinforcement learning (RL) with judge-wise, outcome-driven rewards. JudgeLRM models consistently outperform both SFT-tuned and state-of-the-art reasoning models. Notably, JudgeLRM-3B surpasses GPT-4, and JudgeLRM-7B outperforms DeepSeek-R1 by 2.79% in F1 score, particularly excelling in judge tasks requiring deep reasoning.

Summary

AI-Generated Summary

PDF606April 2, 2025