JudgeLRM: Grandes Modelos de Raciocínio como Juiz
JudgeLRM: Large Reasoning Models as a Judge
March 31, 2025
Autores: Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He
cs.AI
Resumo
O surgimento dos Modelos de Linguagem de Grande Escala (LLMs) como avaliadores oferece uma alternativa escalável à anotação humana, porém as abordagens existentes de Ajuste Fino Supervisionado (SFT) para juízes frequentemente ficam aquém em domínios que exigem raciocínio complexo. Neste trabalho, investigamos se os juízes baseados em LLMs realmente se beneficiam de capacidades aprimoradas de raciocínio. Através de uma análise detalhada dos requisitos de raciocínio em tarefas de avaliação, revelamos uma correlação negativa entre os ganhos de desempenho do SFT e a proporção de amostras que demandam raciocínio — destacando as limitações do SFT nesses cenários. Para abordar isso, introduzimos o JudgeLRM, uma família de LLMs orientados para julgamento, treinados usando aprendizado por reforço (RL) com recompensas orientadas a resultados e específicas para juízes. Os modelos JudgeLRM superam consistentemente tanto os modelos ajustados por SFT quanto os modelos de raciocínio state-of-the-art. Notavelmente, o JudgeLRM-3B supera o GPT-4, e o JudgeLRM-7B supera o DeepSeek-R1 em 2,79% no score F1, destacando-se especialmente em tarefas de julgamento que exigem raciocínio profundo.
English
The rise of Large Language Models (LLMs) as evaluators offers a scalable
alternative to human annotation, yet existing Supervised Fine-Tuning (SFT) for
judges approaches often fall short in domains requiring complex reasoning. In
this work, we investigate whether LLM judges truly benefit from enhanced
reasoning capabilities. Through a detailed analysis of reasoning requirements
across evaluation tasks, we reveal a negative correlation between SFT
performance gains and the proportion of reasoning-demanding samples -
highlighting the limitations of SFT in such scenarios. To address this, we
introduce JudgeLRM, a family of judgment-oriented LLMs trained using
reinforcement learning (RL) with judge-wise, outcome-driven rewards. JudgeLRM
models consistently outperform both SFT-tuned and state-of-the-art reasoning
models. Notably, JudgeLRM-3B surpasses GPT-4, and JudgeLRM-7B outperforms
DeepSeek-R1 by 2.79% in F1 score, particularly excelling in judge tasks
requiring deep reasoning.Summary
AI-Generated Summary