ChatPaper.aiChatPaper

J1: Incentivizzare il Pensiero nei Modelli Linguistici come Giudici tramite Apprendimento per Rinforzo

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

May 15, 2025
Autori: Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha
cs.AI

Abstract

Il progresso dell'IA è limitato dalla qualità della valutazione, e i potenti modelli LLM-as-a-Judge si sono dimostrati una soluzione fondamentale. Una migliore capacità di giudizio è abilitata da un ragionamento a catena di pensiero più robusto, motivando la necessità di trovare le migliori strategie per addestrare tali modelli a pensare. In questo lavoro introduciamo J1, un approccio di apprendimento per rinforzo per l'addestramento di tali modelli. Il nostro metodo converte sia prompt verificabili che non verificabili in compiti di giudizio con ricompense verificabili che incentivano il pensiero e mitigano i pregiudizi di giudizio. In particolare, il nostro approccio supera tutti gli altri modelli esistenti da 8B o 70B quando addestrato a queste dimensioni, inclusi i modelli distillati da DeepSeek-R1. J1 supera anche o1-mini e persino R1 su alcuni benchmark, nonostante addestri un modello più piccolo. Forniamo analisi e ablazioni confrontando i modelli Pairwise-J1 vs Pointwise-J1, le ricette di addestramento offline vs online, le strategie di ricompensa, i prompt iniziali e le variazioni nella lunghezza e nel contenuto del pensiero. Scopriamo che i nostri modelli formulano giudizi migliori imparando a delineare i criteri di valutazione, confrontandosi con risposte di riferimento auto-generate e rivalutando la correttezza delle risposte del modello.
English
The progress of AI is bottlenecked by the quality of evaluation, and powerful LLM-as-a-Judge models have proved to be a core solution. Improved judgment ability is enabled by stronger chain-of-thought reasoning, motivating the need to find the best recipes for training such models to think. In this work we introduce J1, a reinforcement learning approach to training such models. Our method converts both verifiable and non-verifiable prompts to judgment tasks with verifiable rewards that incentivize thinking and mitigate judgment bias. In particular, our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model. We provide analysis and ablations comparing Pairwise-J1 vs Pointwise-J1 models, offline vs online training recipes, reward strategies, seed prompts, and variations in thought length and content. We find that our models make better judgments by learning to outline evaluation criteria, comparing against self-generated reference answers, and re-evaluating the correctness of model responses.
PDF232May 16, 2025