Beloningsredeneermodel
Reward Reasoning Model
May 20, 2025
Auteurs: Jiaxin Guo, Zewen Chi, Li Dong, Qingxiu Dong, Xun Wu, Shaohan Huang, Furu Wei
cs.AI
Samenvatting
Beloningsmodellen spelen een cruciale rol bij het sturen van grote taalmodellen naar uitvoer die aansluit bij menselijke verwachtingen. Een openstaande uitdaging blijft echter het effectief benutten van rekentijd tijdens het testen om de prestaties van beloningsmodellen te verbeteren. In dit werk introduceren we Beloningsredeneermodellen (Reward Reasoning Models, RRMs), die specifiek zijn ontworpen om een weloverwogen redeneerproces uit te voeren voordat ze definitieve beloningen genereren. Door middel van keten-van-gedachten-redenering benutten RRMs extra rekentijd tijdens het testen voor complexe vragen waarbij passende beloningen niet direct duidelijk zijn. Om RRMs te ontwikkelen, implementeren we een reinforcement learning-raamwerk dat zelfontwikkelde redeneervermogen voor beloningen bevordert, zonder expliciete redeneersporen als trainingsdata te vereisen. Experimentele resultaten tonen aan dat RRMs superieure prestaties behalen op benchmarks voor beloningsmodellering in diverse domeinen. Opmerkelijk is dat we aantonen dat RRMs adaptief rekentijd tijdens het testen kunnen benutten om de nauwkeurigheid van beloningen verder te verbeteren. De vooraf getrainde beloningsredeneermodellen zijn beschikbaar op https://huggingface.co/Reward-Reasoning.
English
Reward models play a critical role in guiding large language models toward
outputs that align with human expectations. However, an open challenge remains
in effectively utilizing test-time compute to enhance reward model performance.
In this work, we introduce Reward Reasoning Models (RRMs), which are
specifically designed to execute a deliberate reasoning process before
generating final rewards. Through chain-of-thought reasoning, RRMs leverage
additional test-time compute for complex queries where appropriate rewards are
not immediately apparent. To develop RRMs, we implement a reinforcement
learning framework that fosters self-evolved reward reasoning capabilities
without requiring explicit reasoning traces as training data. Experimental
results demonstrate that RRMs achieve superior performance on reward modeling
benchmarks across diverse domains. Notably, we show that RRMs can adaptively
exploit test-time compute to further improve reward accuracy. The pretrained
reward reasoning models are available at
https://huggingface.co/Reward-Reasoning.Summary
AI-Generated Summary