ChatPaper.aiChatPaper

J1: 強化学習によるLLM-as-a-Judgeにおける思考の促進

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

May 15, 2025
著者: Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha
cs.AI

要旨

AIの進歩は評価の質によってボトルネックとなっており、強力なLLM-as-a-Judgeモデルがその核心的な解決策であることが証明されています。判断能力の向上は、より強力な連鎖的思考(chain-of-thought)推論によって可能となり、そのようなモデルに思考させるための最適なトレーニング方法を見つける必要性が高まっています。本論文では、そのようなモデルをトレーニングするための強化学習アプローチであるJ1を紹介します。私たちの手法は、検証可能なプロンプトと検証不可能なプロンプトの両方を、思考を促進し判断バイアスを軽減する検証可能な報酬を持つ判断タスクに変換します。特に、私たちのアプローチは、8Bや70Bのサイズでトレーニングされた場合、DeepSeek-R1から蒸留されたモデルを含む他の既存のモデルをすべて上回ります。J1はo1-miniを上回り、一部のベンチマークではR1をも上回りますが、それよりも小さいモデルをトレーニングしています。私たちは、Pairwise-J1とPointwise-J1モデル、オフラインとオンラインのトレーニング方法、報酬戦略、シードプロンプト、思考の長さと内容のバリエーションを比較する分析とアブレーションを提供します。私たちのモデルは、評価基準を概説し、自己生成された参照回答と比較し、モデル応答の正確性を再評価することによって、より良い判断を行うことがわかりました。
English
The progress of AI is bottlenecked by the quality of evaluation, and powerful LLM-as-a-Judge models have proved to be a core solution. Improved judgment ability is enabled by stronger chain-of-thought reasoning, motivating the need to find the best recipes for training such models to think. In this work we introduce J1, a reinforcement learning approach to training such models. Our method converts both verifiable and non-verifiable prompts to judgment tasks with verifiable rewards that incentivize thinking and mitigate judgment bias. In particular, our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model. We provide analysis and ablations comparing Pairwise-J1 vs Pointwise-J1 models, offline vs online training recipes, reward strategies, seed prompts, and variations in thought length and content. We find that our models make better judgments by learning to outline evaluation criteria, comparing against self-generated reference answers, and re-evaluating the correctness of model responses.

Summary

AI-Generated Summary

PDF142May 16, 2025