Beloningsredeneermodel

Samenvatting

Beloningsmodellen spelen een cruciale rol bij het sturen van grote taalmodellen naar uitvoer die aansluit bij menselijke verwachtingen. Een openstaande uitdaging blijft echter het effectief benutten van rekentijd tijdens het testen om de prestaties van beloningsmodellen te verbeteren. In dit werk introduceren we Beloningsredeneermodellen (Reward Reasoning Models, RRMs), die specifiek zijn ontworpen om een weloverwogen redeneerproces uit te voeren voordat ze definitieve beloningen genereren. Door middel van keten-van-gedachten-redenering benutten RRMs extra rekentijd tijdens het testen voor complexe vragen waarbij passende beloningen niet direct duidelijk zijn. Om RRMs te ontwikkelen, implementeren we een reinforcement learning-raamwerk dat zelfontwikkelde redeneervermogen voor beloningen bevordert, zonder expliciete redeneersporen als trainingsdata te vereisen. Experimentele resultaten tonen aan dat RRMs superieure prestaties behalen op benchmarks voor beloningsmodellering in diverse domeinen. Opmerkelijk is dat we aantonen dat RRMs adaptief rekentijd tijdens het testen kunnen benutten om de nauwkeurigheid van beloningen verder te verbeteren. De vooraf getrainde beloningsredeneermodellen zijn beschikbaar op https://huggingface.co/Reward-Reasoning.

English

Reward models play a critical role in guiding large language models toward outputs that align with human expectations. However, an open challenge remains in effectively utilizing test-time compute to enhance reward model performance. In this work, we introduce Reward Reasoning Models (RRMs), which are specifically designed to execute a deliberate reasoning process before generating final rewards. Through chain-of-thought reasoning, RRMs leverage additional test-time compute for complex queries where appropriate rewards are not immediately apparent. To develop RRMs, we implement a reinforcement learning framework that fosters self-evolved reward reasoning capabilities without requiring explicit reasoning traces as training data. Experimental results demonstrate that RRMs achieve superior performance on reward modeling benchmarks across diverse domains. Notably, we show that RRMs can adaptively exploit test-time compute to further improve reward accuracy. The pretrained reward reasoning models are available at https://huggingface.co/Reward-Reasoning.

Beloningsredeneermodel

Reward Reasoning Model

Samenvatting

Summary

Support

Support