ChatPaper.aiChatPaper

JudgeLRM: Große Reasoning-Modelle als Richter

JudgeLRM: Large Reasoning Models as a Judge

March 31, 2025
Autoren: Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He
cs.AI

Zusammenfassung

Der Aufstieg von Large Language Models (LLMs) als Bewerter bietet eine skalierbare Alternative zur menschlichen Annotation, doch bestehende Ansätze des Supervised Fine-Tuning (SFT) für Bewerter fallen oft in Domänen mit komplexem Denken zurück. In dieser Arbeit untersuchen wir, ob LLM-Bewerter tatsächlich von verbesserten Denkfähigkeiten profitieren. Durch eine detaillierte Analyse der Anforderungen an das Denken in Bewertungsaufgaben zeigen wir eine negative Korrelation zwischen den Leistungssteigerungen durch SFT und dem Anteil der Proben, die anspruchsvolles Denken erfordern – was die Grenzen von SFT in solchen Szenarien verdeutlicht. Um dies zu adressieren, führen wir JudgeLRM ein, eine Familie von bewertungsorientierten LLMs, die mit Reinforcement Learning (RL) und richterbezogenen, ergebnisorientierten Belohnungen trainiert werden. JudgeLRM-Modelle übertreffen durchweg sowohl SFT-optimierte als auch state-of-the-art Denkmodelle. Insbesondere übertrifft JudgeLRM-3B GPT-4, und JudgeLRM-7B übertrifft DeepSeek-R1 um 2,79 % im F1-Score, wobei es besonders in Bewerteraufgaben, die tiefes Denken erfordern, hervorsticht.
English
The rise of Large Language Models (LLMs) as evaluators offers a scalable alternative to human annotation, yet existing Supervised Fine-Tuning (SFT) for judges approaches often fall short in domains requiring complex reasoning. In this work, we investigate whether LLM judges truly benefit from enhanced reasoning capabilities. Through a detailed analysis of reasoning requirements across evaluation tasks, we reveal a negative correlation between SFT performance gains and the proportion of reasoning-demanding samples - highlighting the limitations of SFT in such scenarios. To address this, we introduce JudgeLRM, a family of judgment-oriented LLMs trained using reinforcement learning (RL) with judge-wise, outcome-driven rewards. JudgeLRM models consistently outperform both SFT-tuned and state-of-the-art reasoning models. Notably, JudgeLRM-3B surpasses GPT-4, and JudgeLRM-7B outperforms DeepSeek-R1 by 2.79% in F1 score, particularly excelling in judge tasks requiring deep reasoning.

Summary

AI-Generated Summary

PDF606April 2, 2025