Modello di Ragionamento sulla Ricompensa

Abstract

I modelli di ricompensa svolgono un ruolo cruciale nel guidare i grandi modelli linguistici verso output che si allineano alle aspettative umane. Tuttavia, rimane una sfida aperta nell'utilizzo efficace del calcolo al momento del test per migliorare le prestazioni dei modelli di ricompensa. In questo lavoro, introduciamo i Modelli di Ragionamento sulla Ricompensa (RRM), progettati specificamente per eseguire un processo di ragionamento deliberato prima di generare ricompense finali. Attraverso il ragionamento a catena di pensiero, gli RRM sfruttano ulteriori risorse di calcolo al momento del test per query complesse in cui le ricompense appropriate non sono immediatamente evidenti. Per sviluppare gli RRM, implementiamo un framework di apprendimento per rinforzo che favorisce capacità di ragionamento sulla ricompensa auto-evolute senza richiedere tracce di ragionamento esplicite come dati di addestramento. I risultati sperimentali dimostrano che gli RRM raggiungono prestazioni superiori nei benchmark di modellazione della ricompensa in diversi domini. In particolare, mostriamo che gli RRM possono sfruttare in modo adattivo il calcolo al momento del test per migliorare ulteriormente l'accuratezza della ricompensa. I modelli di ragionamento sulla ricompensa preaddestrati sono disponibili all'indirizzo https://huggingface.co/Reward-Reasoning.

English

Reward models play a critical role in guiding large language models toward outputs that align with human expectations. However, an open challenge remains in effectively utilizing test-time compute to enhance reward model performance. In this work, we introduce Reward Reasoning Models (RRMs), which are specifically designed to execute a deliberate reasoning process before generating final rewards. Through chain-of-thought reasoning, RRMs leverage additional test-time compute for complex queries where appropriate rewards are not immediately apparent. To develop RRMs, we implement a reinforcement learning framework that fosters self-evolved reward reasoning capabilities without requiring explicit reasoning traces as training data. Experimental results demonstrate that RRMs achieve superior performance on reward modeling benchmarks across diverse domains. Notably, we show that RRMs can adaptively exploit test-time compute to further improve reward accuracy. The pretrained reward reasoning models are available at https://huggingface.co/Reward-Reasoning.