ChatPaper.aiChatPaper

J1: Het stimuleren van denken in LLM-als-rechter via reinforcement learning

J1: Incentivizing Thinking in LLM-as-a-Judge via Reinforcement Learning

May 15, 2025
Auteurs: Chenxi Whitehouse, Tianlu Wang, Ping Yu, Xian Li, Jason Weston, Ilia Kulikov, Swarnadeep Saha
cs.AI

Samenvatting

De vooruitgang van AI wordt belemmerd door de kwaliteit van evaluatie, en krachtige LLM-as-a-Judge-modellen hebben zich bewezen als een kernoplossing. Verbeterd beoordelingsvermogen wordt mogelijk gemaakt door sterkere chain-of-thought-redenering, wat de noodzaak benadrukt om de beste methoden te vinden voor het trainen van dergelijke modellen om te denken. In dit werk introduceren we J1, een reinforcement learning-benadering voor het trainen van dergelijke modellen. Onze methode zet zowel verifieerbare als niet-verifieerbare prompts om in beoordelingstaken met verifieerbare beloningen die denken stimuleren en beoordelingsbias verminderen. In het bijzonder presteert onze aanpak beter dan alle andere bestaande 8B- of 70B-modellen wanneer deze op die grootte worden getraind, inclusief modellen die zijn gedistilleerd uit DeepSeek-R1. J1 presteert ook beter dan o1-mini, en zelfs dan R1 op sommige benchmarks, ondanks het trainen van een kleiner model. We bieden analyse en ablatie-onderzoeken die Pairwise-J1 versus Pointwise-J1-modellen vergelijken, offline versus online trainingsmethoden, beloningsstrategieën, seed-prompts, en variaties in gedachte-lengte en -inhoud. We constateren dat onze modellen betere beoordelingen maken door te leren evaluatiecriteria te schetsen, te vergelijken met zelf gegenereerde referentieantwoorden, en de juistheid van modelresponsen opnieuw te evalueren.
English
The progress of AI is bottlenecked by the quality of evaluation, and powerful LLM-as-a-Judge models have proved to be a core solution. Improved judgment ability is enabled by stronger chain-of-thought reasoning, motivating the need to find the best recipes for training such models to think. In this work we introduce J1, a reinforcement learning approach to training such models. Our method converts both verifiable and non-verifiable prompts to judgment tasks with verifiable rewards that incentivize thinking and mitigate judgment bias. In particular, our approach outperforms all other existing 8B or 70B models when trained at those sizes, including models distilled from DeepSeek-R1. J1 also outperforms o1-mini, and even R1 on some benchmarks, despite training a smaller model. We provide analysis and ablations comparing Pairwise-J1 vs Pointwise-J1 models, offline vs online training recipes, reward strategies, seed prompts, and variations in thought length and content. We find that our models make better judgments by learning to outline evaluation criteria, comparing against self-generated reference answers, and re-evaluating the correctness of model responses.

Summary

AI-Generated Summary

PDF182May 16, 2025