ChatPaper.aiChatPaper

J1: Förderung des Denkens in LLM-als-Richter durch Reinforcement Learning

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

May 15, 2025
Autoren: Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha
cs.AI

Zusammenfassung

Der Fortschritt der KI wird durch die Qualität der Evaluation begrenzt, und leistungsstarke LLM-as-a-Judge-Modelle haben sich als zentrale Lösung erwiesen. Eine verbesserte Urteilsfähigkeit wird durch stärkeres Chain-of-Thought-Denken ermöglicht, was die Notwendigkeit motiviert, die besten Methoden für das Training solcher Modelle zum Denken zu finden. In dieser Arbeit stellen wir J1 vor, einen Reinforcement-Learning-Ansatz zur Schulung solcher Modelle. Unsere Methode wandelt sowohl überprüfbare als auch nicht überprüfbare Prompts in Urteilsaufgaben mit überprüfbaren Belohnungen um, die Denken fördern und Urteilsverzerrungen mindern. Insbesondere übertrifft unser Ansatz alle anderen existierenden 8B- oder 70B-Modelle, wenn er in diesen Größen trainiert wird, einschließlich Modelle, die aus DeepSeek-R1 destilliert wurden. J1 übertrifft auch o1-mini und sogar R1 in einigen Benchmarks, obwohl ein kleineres Modell trainiert wird. Wir bieten Analysen und Ablationen, die Pairwise-J1- mit Pointwise-J1-Modellen vergleichen, Offline- mit Online-Trainingsmethoden, Belohnungsstrategien, Seed-Prompts sowie Variationen in der Länge und dem Inhalt der Gedanken. Wir stellen fest, dass unsere Modelle bessere Urteile fällen, indem sie lernen, Bewertungskriterien zu skizzieren, sich mit selbst generierten Referenzantworten zu vergleichen und die Korrektheit von Modellantworten neu zu bewerten.
English
The progress of AI is bottlenecked by the quality of evaluation, and powerful LLM-as-a-Judge models have proved to be a core solution. Improved judgment ability is enabled by stronger chain-of-thought reasoning, motivating the need to find the best recipes for training such models to think. In this work we introduce J1, a reinforcement learning approach to training such models. Our method converts both verifiable and non-verifiable prompts to judgment tasks with verifiable rewards that incentivize thinking and mitigate judgment bias. In particular, our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model. We provide analysis and ablations comparing Pairwise-J1 vs Pointwise-J1 models, offline vs online training recipes, reward strategies, seed prompts, and variations in thought length and content. We find that our models make better judgments by learning to outline evaluation criteria, comparing against self-generated reference answers, and re-evaluating the correctness of model responses.

Summary

AI-Generated Summary

PDF142May 16, 2025