Riportare il Valore nel RL: Migliorare il Ridimensionamento al Momento del Test Unificando i Ragionatori LLM con i Verificatori

Abstract

I metodi prevalenti di apprendimento per rinforzo~(RL) per il fine-tuning dei ragionatori LLM, come GRPO o Leave-one-out PPO, abbandonano la funzione di valore appresa a favore di rendimenti stimati empiricamente. Ciò ostacola la scalabilità computazionale al momento del test che si basa sull'uso della funzione di valore per la verifica. In questo lavoro, proponiamo RL^V che potenzia qualsiasi metodo RL "senza valore" addestrando congiuntamente l'LLM sia come ragionatore che come verificatore generativo utilizzando dati generati da RL, aggiungendo capacità di verifica senza un sovraccarico significativo. Empiricamente, RL^V aumenta l'accuratezza su MATH di oltre il 20\% con campionamento parallelo e consente una scalabilità computazionale al momento del test da 8 a 32 volte più efficiente rispetto al metodo RL di base. RL^V mostra anche forti capacità di generalizzazione sia per compiti da facili a difficili che per compiti fuori dominio. Inoltre, RL^V raggiunge prestazioni da 1,2 a 1,6 volte superiori quando si scala congiuntamente il calcolo parallelo e sequenziale al momento del test con un modello di ragionamento lungo R1.

English

Prevalent reinforcement learning~(RL) methods for fine-tuning LLM reasoners, such as GRPO or Leave-one-out PPO, abandon the learned value function in favor of empirically estimated returns. This hinders test-time compute scaling that relies on using the value-function for verification. In this work, we propose RL^V that augments any ``value-free'' RL method by jointly training the LLM as both a reasoner and a generative verifier using RL-generated data, adding verification capabilities without significant overhead. Empirically, RL^V boosts MATH accuracy by over 20\% with parallel sampling and enables 8-32times efficient test-time compute scaling compared to the base RL method. RL^V also exhibits strong generalization capabilities for both easy-to-hard and out-of-domain tasks. Furthermore, RL^V achieves 1.2-1.6times higher performance when jointly scaling parallel and sequential test-time compute with a long reasoning R1 model.

Riportare il Valore nel RL: Migliorare il Ridimensionamento al Momento del Test Unificando i Ragionatori LLM con i Verificatori

Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM Reasoners With Verifiers

Abstract

Support