ChatPaper.aiChatPaper

J1 : Inciter la réflexion dans les LLM en tant que juges via l'apprentissage par renforcement

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

May 15, 2025
Auteurs: Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha
cs.AI

Résumé

Les progrès de l'IA sont freinés par la qualité de l'évaluation, et les modèles puissants de type LLM-comme-Juge se sont avérés être une solution clé. Une capacité de jugement améliorée est rendue possible par un raisonnement en chaîne de pensée plus robuste, ce qui motive la nécessité de trouver les meilleures méthodes pour entraîner de tels modèles à penser. Dans ce travail, nous présentons J1, une approche d'apprentissage par renforcement pour entraîner ces modèles. Notre méthode transforme à la fois les invites vérifiables et non vérifiables en tâches de jugement avec des récompenses vérifiables qui incitent à la réflexion et atténuent les biais de jugement. En particulier, notre approche surpasse tous les autres modèles existants de 8B ou 70B lorsqu'elle est entraînée à ces tailles, y compris les modèles distillés à partir de DeepSeek-R1. J1 surpasse également o1-mini, et même R1 sur certains benchmarks, malgré l'entraînement d'un modèle plus petit. Nous fournissons une analyse et des ablations comparant les modèles Pairwise-J1 et Pointwise-J1, les méthodes d'entraînement hors ligne et en ligne, les stratégies de récompense, les invites de départ, ainsi que les variations dans la longueur et le contenu de la pensée. Nous constatons que nos modèles font de meilleurs jugements en apprenant à définir des critères d'évaluation, à comparer avec des réponses de référence auto-générées, et à réévaluer la justesse des réponses du modèle.
English
The progress of AI is bottlenecked by the quality of evaluation, and powerful LLM-as-a-Judge models have proved to be a core solution. Improved judgment ability is enabled by stronger chain-of-thought reasoning, motivating the need to find the best recipes for training such models to think. In this work we introduce J1, a reinforcement learning approach to training such models. Our method converts both verifiable and non-verifiable prompts to judgment tasks with verifiable rewards that incentivize thinking and mitigate judgment bias. In particular, our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model. We provide analysis and ablations comparing Pairwise-J1 vs Pointwise-J1 models, offline vs online training recipes, reward strategies, seed prompts, and variations in thought length and content. We find that our models make better judgments by learning to outline evaluation criteria, comparing against self-generated reference answers, and re-evaluating the correctness of model responses.

Summary

AI-Generated Summary

PDF142May 16, 2025