JudgeLRM: Große Reasoning-Modelle als Richter
JudgeLRM: Large Reasoning Models as a Judge
March 31, 2025
Autoren: Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He
cs.AI
Zusammenfassung
Der Aufstieg von Large Language Models (LLMs) als Bewerter bietet eine skalierbare Alternative zur menschlichen Annotation, doch bestehende Ansätze des Supervised Fine-Tuning (SFT) für Bewerter fallen oft in Domänen mit komplexem Denken zurück. In dieser Arbeit untersuchen wir, ob LLM-Bewerter tatsächlich von verbesserten Denkfähigkeiten profitieren. Durch eine detaillierte Analyse der Anforderungen an das Denken in Bewertungsaufgaben zeigen wir eine negative Korrelation zwischen den Leistungssteigerungen durch SFT und dem Anteil der Proben, die anspruchsvolles Denken erfordern – was die Grenzen von SFT in solchen Szenarien verdeutlicht. Um dies zu adressieren, führen wir JudgeLRM ein, eine Familie von bewertungsorientierten LLMs, die mit Reinforcement Learning (RL) und richterbezogenen, ergebnisorientierten Belohnungen trainiert werden. JudgeLRM-Modelle übertreffen durchweg sowohl SFT-optimierte als auch state-of-the-art Denkmodelle. Insbesondere übertrifft JudgeLRM-3B GPT-4, und JudgeLRM-7B übertrifft DeepSeek-R1 um 2,79 % im F1-Score, wobei es besonders in Bewerteraufgaben, die tiefes Denken erfordern, hervorsticht.
English
The rise of Large Language Models (LLMs) as evaluators offers a scalable
alternative to human annotation, yet existing Supervised Fine-Tuning (SFT) for
judges approaches often fall short in domains requiring complex reasoning. In
this work, we investigate whether LLM judges truly benefit from enhanced
reasoning capabilities. Through a detailed analysis of reasoning requirements
across evaluation tasks, we reveal a negative correlation between SFT
performance gains and the proportion of reasoning-demanding samples -
highlighting the limitations of SFT in such scenarios. To address this, we
introduce JudgeLRM, a family of judgment-oriented LLMs trained using
reinforcement learning (RL) with judge-wise, outcome-driven rewards. JudgeLRM
models consistently outperform both SFT-tuned and state-of-the-art reasoning
models. Notably, JudgeLRM-3B surpasses GPT-4, and JudgeLRM-7B outperforms
DeepSeek-R1 by 2.79% in F1 score, particularly excelling in judge tasks
requiring deep reasoning.Summary
AI-Generated Summary