ChatPaper.aiChatPaper

JudgeLRM: 판단자로서의 대형 추론 모델

JudgeLRM: Large Reasoning Models as a Judge

March 31, 2025
저자: Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He
cs.AI

초록

대규모 언어 모델(LLM)이 평가자로 부상함에 따라 인간 주석의 확장 가능한 대안이 등장했지만, 복잡한 추론이 필요한 영역에서 기존의 감독 미세 조정(SFT) 기반 판단 모델 접근법은 종종 한계를 보입니다. 본 연구에서는 LLM 판단자가 실제로 향상된 추론 능력으로부터 이득을 얻는지 조사합니다. 평가 과제 전반에 걸친 추론 요구 사항에 대한 상세한 분석을 통해, SFT 성능 향상과 추론이 필요한 샘플 비율 간에 음의 상관관계가 있음을 밝혀냄으로써 이러한 시나리오에서 SFT의 한계를 강조합니다. 이를 해결하기 위해, 우리는 판단자 중심의 보상을 활용한 강화 학습(RL)으로 훈련된 판단 지향 LLM 패밀리인 JudgeLRM을 소개합니다. JudgeLRM 모델들은 SFT 조정 모델과 최첨단 추론 모델 모두를 꾸준히 능가합니다. 특히, JudgeLRM-3B는 GPT-4를 능가하며, JudgeLRM-7B는 DeepSeek-R1을 F1 점수에서 2.79% 앞서며, 깊은 추론이 필요한 판단 과제에서 특히 뛰어난 성능을 보입니다.
English
The rise of Large Language Models (LLMs) as evaluators offers a scalable alternative to human annotation, yet existing Supervised Fine-Tuning (SFT) for judges approaches often fall short in domains requiring complex reasoning. In this work, we investigate whether LLM judges truly benefit from enhanced reasoning capabilities. Through a detailed analysis of reasoning requirements across evaluation tasks, we reveal a negative correlation between SFT performance gains and the proportion of reasoning-demanding samples - highlighting the limitations of SFT in such scenarios. To address this, we introduce JudgeLRM, a family of judgment-oriented LLMs trained using reinforcement learning (RL) with judge-wise, outcome-driven rewards. JudgeLRM models consistently outperform both SFT-tuned and state-of-the-art reasoning models. Notably, JudgeLRM-3B surpasses GPT-4, and JudgeLRM-7B outperforms DeepSeek-R1 by 2.79% in F1 score, particularly excelling in judge tasks requiring deep reasoning.

Summary

AI-Generated Summary

PDF606April 2, 2025