JudgeLRM: Modelos de Razonamiento a Gran Escala como Juez
JudgeLRM: Large Reasoning Models as a Judge
March 31, 2025
Autores: Nuo Chen, Zhiyuan Hu, Qingyun Zou, Jiaying Wu, Qian Wang, Bryan Hooi, Bingsheng He
cs.AI
Resumen
El auge de los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) como evaluadores ofrece una alternativa escalable a la anotación humana, aunque los enfoques existentes de Ajuste Fino Supervisado (SFT, por sus siglas en inglés) para jueces a menudo no alcanzan el nivel requerido en dominios que exigen razonamiento complejo. En este trabajo, investigamos si los jueces basados en LLMs realmente se benefician de capacidades de razonamiento mejoradas. A través de un análisis detallado de los requisitos de razonamiento en tareas de evaluación, revelamos una correlación negativa entre las mejoras de rendimiento del SFT y la proporción de muestras que demandan razonamiento, destacando las limitaciones del SFT en tales escenarios. Para abordar esto, presentamos JudgeLRM, una familia de LLMs orientados a juicios entrenados mediante aprendizaje por refuerzo (RL, por sus siglas en inglés) con recompensas basadas en resultados y específicas para jueces. Los modelos JudgeLRM superan consistentemente tanto a los modelos ajustados con SFT como a los modelos de razonamiento más avanzados. Notablemente, JudgeLRM-3B supera a GPT-4, y JudgeLRM-7B supera a DeepSeek-R1 en un 2.79% en puntuación F1, destacándose especialmente en tareas de juicio que requieren razonamiento profundo.
English
The rise of Large Language Models (LLMs) as evaluators offers a scalable
alternative to human annotation, yet existing Supervised Fine-Tuning (SFT) for
judges approaches often fall short in domains requiring complex reasoning. In
this work, we investigate whether LLM judges truly benefit from enhanced
reasoning capabilities. Through a detailed analysis of reasoning requirements
across evaluation tasks, we reveal a negative correlation between SFT
performance gains and the proportion of reasoning-demanding samples -
highlighting the limitations of SFT in such scenarios. To address this, we
introduce JudgeLRM, a family of judgment-oriented LLMs trained using
reinforcement learning (RL) with judge-wise, outcome-driven rewards. JudgeLRM
models consistently outperform both SFT-tuned and state-of-the-art reasoning
models. Notably, JudgeLRM-3B surpasses GPT-4, and JudgeLRM-7B outperforms
DeepSeek-R1 by 2.79% in F1 score, particularly excelling in judge tasks
requiring deep reasoning.Summary
AI-Generated Summary