ChatPaper.aiChatPaper

J1: 강화 학습을 통한 LLM-as-a-Judge 사고 유도

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

May 15, 2025
저자: Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha
cs.AI

초록

AI의 발전은 평가의 질에 의해 병목 현상을 겪고 있으며, 강력한 LLM-as-a-Judge 모델이 핵심 해결책으로 입증되었습니다. 개선된 판단 능력은 더 강력한 사고의 연쇄적 추론을 통해 가능해지며, 이러한 모델이 사고하도록 훈련시키기 위한 최적의 방법을 찾아야 할 필요성을 부각시킵니다. 본 연구에서는 이러한 모델을 훈련시키기 위한 강화 학습 접근법인 J1을 소개합니다. 우리의 방법은 검증 가능한 프롬프트와 검증 불가능한 프롬프트를 모두 검증 가능한 보상이 있는 판단 작업으로 변환하여 사고를 유도하고 판단 편향을 완화합니다. 특히, 우리의 접근법은 8B 또는 70B 크기로 훈련되었을 때 DeepSeek-R1에서 증류된 모델을 포함한 기존의 모든 모델을 능가합니다. J1은 o1-mini를 능가하며, 일부 벤치마크에서는 더 작은 모델을 훈련했음에도 불구하고 R1보다 우수한 성능을 보입니다. 우리는 Pairwise-J1 대 Pointwise-J1 모델, 오프라인 대 온라인 훈련 방법, 보상 전략, 시드 프롬프트, 그리고 사고 길이와 내용의 변형을 비교하는 분석과 제거 실험을 제공합니다. 우리의 모델이 평가 기준을 개요화하고, 자체 생성된 참조 답변과 비교하며, 모델 응답의 정확성을 재평가함으로써 더 나은 판단을 내리는 것을 발견했습니다.
English
The progress of AI is bottlenecked by the quality of evaluation, and powerful LLM-as-a-Judge models have proved to be a core solution. Improved judgment ability is enabled by stronger chain-of-thought reasoning, motivating the need to find the best recipes for training such models to think. In this work we introduce J1, a reinforcement learning approach to training such models. Our method converts both verifiable and non-verifiable prompts to judgment tasks with verifiable rewards that incentivize thinking and mitigate judgment bias. In particular, our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model. We provide analysis and ablations comparing Pairwise-J1 vs Pointwise-J1 models, offline vs online training recipes, reward strategies, seed prompts, and variations in thought length and content. We find that our models make better judgments by learning to outline evaluation criteria, comparing against self-generated reference answers, and re-evaluating the correctness of model responses.

Summary

AI-Generated Summary

PDF142May 16, 2025