Modello di Ragionamento sulla Ricompensa
Reward Reasoning Model
May 20, 2025
Autori: Jiaxin Guo, Zewen Chi, Li Dong, Qingxiu Dong, Xun Wu, Shaohan Huang, Furu Wei
cs.AI
Abstract
I modelli di ricompensa svolgono un ruolo cruciale nel guidare i grandi modelli linguistici verso output che si allineano alle aspettative umane. Tuttavia, rimane una sfida aperta nell'utilizzo efficace del calcolo al momento del test per migliorare le prestazioni dei modelli di ricompensa. In questo lavoro, introduciamo i Modelli di Ragionamento sulla Ricompensa (RRM), progettati specificamente per eseguire un processo di ragionamento deliberato prima di generare ricompense finali. Attraverso il ragionamento a catena di pensiero, gli RRM sfruttano ulteriori risorse di calcolo al momento del test per query complesse in cui le ricompense appropriate non sono immediatamente evidenti. Per sviluppare gli RRM, implementiamo un framework di apprendimento per rinforzo che favorisce capacità di ragionamento sulla ricompensa auto-evolute senza richiedere tracce di ragionamento esplicite come dati di addestramento. I risultati sperimentali dimostrano che gli RRM raggiungono prestazioni superiori nei benchmark di modellazione della ricompensa in diversi domini. In particolare, mostriamo che gli RRM possono sfruttare in modo adattivo il calcolo al momento del test per migliorare ulteriormente l'accuratezza della ricompensa. I modelli di ragionamento sulla ricompensa preaddestrati sono disponibili all'indirizzo https://huggingface.co/Reward-Reasoning.
English
Reward models play a critical role in guiding large language models toward
outputs that align with human expectations. However, an open challenge remains
in effectively utilizing test-time compute to enhance reward model performance.
In this work, we introduce Reward Reasoning Models (RRMs), which are
specifically designed to execute a deliberate reasoning process before
generating final rewards. Through chain-of-thought reasoning, RRMs leverage
additional test-time compute for complex queries where appropriate rewards are
not immediately apparent. To develop RRMs, we implement a reinforcement
learning framework that fosters self-evolved reward reasoning capabilities
without requiring explicit reasoning traces as training data. Experimental
results demonstrate that RRMs achieve superior performance on reward modeling
benchmarks across diverse domains. Notably, we show that RRMs can adaptively
exploit test-time compute to further improve reward accuracy. The pretrained
reward reasoning models are available at
https://huggingface.co/Reward-Reasoning.