J1: Incentivizando el pensamiento en LLM-como-juez mediante aprendizaje por refuerzo
J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning
May 15, 2025
Autores: Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha
cs.AI
Resumen
El progreso de la IA está limitado por la calidad de la evaluación, y los potentes modelos LLM-como-Juez han demostrado ser una solución fundamental. Una mayor capacidad de juicio se habilita mediante un razonamiento en cadena de pensamiento más robusto, lo que motiva la necesidad de encontrar las mejores recetas para entrenar a dichos modelos a pensar. En este trabajo presentamos J1, un enfoque de aprendizaje por refuerzo para entrenar tales modelos. Nuestro método convierte tanto indicaciones verificables como no verificables en tareas de juicio con recompensas verificables que incentivan el pensamiento y mitigan el sesgo en el juicio. En particular, nuestro enfoque supera a todos los demás modelos existentes de 8B o 70B cuando se entrena en esos tamaños, incluyendo modelos destilados de DeepSeek-R1. J1 también supera a o1-mini, e incluso a R1 en algunos benchmarks, a pesar de entrenar un modelo más pequeño. Proporcionamos análisis y ablaciones comparando modelos Pairwise-J1 frente a Pointwise-J1, recetas de entrenamiento offline frente a online, estrategias de recompensa, indicaciones iniciales y variaciones en la longitud y contenido del pensamiento. Descubrimos que nuestros modelos realizan mejores juicios al aprender a esbozar criterios de evaluación, comparar con respuestas de referencia generadas por ellos mismos y reevaluar la corrección de las respuestas del modelo.
English
The progress of AI is bottlenecked by the quality of evaluation, and powerful
LLM-as-a-Judge models have proved to be a core solution. Improved judgment
ability is enabled by stronger chain-of-thought reasoning, motivating the need
to find the best recipes for training such models to think. In this work we
introduce J1, a reinforcement learning approach to training such models. Our
method converts both verifiable and non-verifiable prompts to judgment tasks
with verifiable rewards that incentivize thinking and mitigate judgment bias.
In particular, our approach outperforms all other existing 8B or 70B models
when trained at those sizes, including models distilled from DeepSeek-R1. J1
also outperforms o1-mini, and even R1 on some benchmarks, despite training a
smaller model. We provide analysis and ablations comparing Pairwise-J1 vs
Pointwise-J1 models, offline vs online training recipes, reward strategies,
seed prompts, and variations in thought length and content. We find that our
models make better judgments by learning to outline evaluation criteria,
comparing against self-generated reference answers, and re-evaluating the
correctness of model responses.Summary
AI-Generated Summary