JudgeLRM: Grandes Modelos de Raciocínio como Juiz

Resumo

O surgimento dos Modelos de Linguagem de Grande Escala (LLMs) como avaliadores oferece uma alternativa escalável à anotação humana, porém as abordagens existentes de Ajuste Fino Supervisionado (SFT) para juízes frequentemente ficam aquém em domínios que exigem raciocínio complexo. Neste trabalho, investigamos se os juízes baseados em LLMs realmente se beneficiam de capacidades aprimoradas de raciocínio. Através de uma análise detalhada dos requisitos de raciocínio em tarefas de avaliação, revelamos uma correlação negativa entre os ganhos de desempenho do SFT e a proporção de amostras que demandam raciocínio — destacando as limitações do SFT nesses cenários. Para abordar isso, introduzimos o JudgeLRM, uma família de LLMs orientados para julgamento, treinados usando aprendizado por reforço (RL) com recompensas orientadas a resultados e específicas para juízes. Os modelos JudgeLRM superam consistentemente tanto os modelos ajustados por SFT quanto os modelos de raciocínio state-of-the-art. Notavelmente, o JudgeLRM-3B supera o GPT-4, e o JudgeLRM-7B supera o DeepSeek-R1 em 2,79% no score F1, destacando-se especialmente em tarefas de julgamento que exigem raciocínio profundo.

English

The rise of Large Language Models (LLMs) as evaluators offers a scalable alternative to human annotation, yet existing Supervised Fine-Tuning (SFT) for judges approaches often fall short in domains requiring complex reasoning. In this work, we investigate whether LLM judges truly benefit from enhanced reasoning capabilities. Through a detailed analysis of reasoning requirements across evaluation tasks, we reveal a negative correlation between SFT performance gains and the proportion of reasoning-demanding samples - highlighting the limitations of SFT in such scenarios. To address this, we introduce JudgeLRM, a family of judgment-oriented LLMs trained using reinforcement learning (RL) with judge-wise, outcome-driven rewards. JudgeLRM models consistently outperform both SFT-tuned and state-of-the-art reasoning models. Notably, JudgeLRM-3B surpasses GPT-4, and JudgeLRM-7B outperforms DeepSeek-R1 by 2.79% in F1 score, particularly excelling in judge tasks requiring deep reasoning.

JudgeLRM: Grandes Modelos de Raciocínio como Juiz

JudgeLRM: Large Reasoning Models as a Judge

Resumo

Support