ProRL: L'Apprendimento per Rinforzo Prolungato Amplia i Confini del Ragionamento nei Modelli Linguistici di Grandi Dimensioni
ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models
May 30, 2025
Autori: Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong
cs.AI
Abstract
I recenti progressi nei modelli linguistici incentrati sul ragionamento hanno evidenziato il reinforcement learning (RL) come un metodo promettente per allineare i modelli con ricompense verificabili. Tuttavia, rimane controverso se l'RL espanda veramente le capacità di ragionamento di un modello o si limiti ad amplificare output ad alta ricompensa già latenti nella distribuzione del modello base, e se il continuo aumento del calcolo RL porti in modo affidabile a un miglioramento delle prestazioni di ragionamento. In questo lavoro, sfidiamo le ipotesi prevalenti dimostrando che un addestramento prolungato con RL (ProRL) può scoprire nuove strategie di ragionamento inaccessibili ai modelli base, anche con un campionamento estensivo. Introduciamo ProRL, una nuova metodologia di addestramento che incorpora il controllo della divergenza KL, il reset della politica di riferimento e una suite diversificata di compiti. La nostra analisi empirica rivela che i modelli addestrati con RL superano costantemente i modelli base in un'ampia gamma di valutazioni pass@k, inclusi scenari in cui i modelli base falliscono completamente indipendentemente dal numero di tentativi. Mostriamo inoltre che i miglioramenti dei confini del ragionamento correlano fortemente con la competenza del modello base e la durata dell'addestramento, suggerendo che l'RL può esplorare e popolare nuove regioni dello spazio delle soluzioni nel tempo. Questi risultati offrono nuove intuizioni sulle condizioni in cui l'RL espande in modo significativo i confini del ragionamento nei modelli linguistici e stabiliscono una base per futuri lavori sull'RL a lungo termine per il ragionamento. Rilasciamo i pesi del modello per supportare ulteriori ricerche: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
English
Recent advances in reasoning-centric language models have highlighted
reinforcement learning (RL) as a promising method for aligning models with
verifiable rewards. However, it remains contentious whether RL truly expands a
model's reasoning capabilities or merely amplifies high-reward outputs already
latent in the base model's distribution, and whether continually scaling up RL
compute reliably leads to improved reasoning performance. In this work, we
challenge prevailing assumptions by demonstrating that prolonged RL (ProRL)
training can uncover novel reasoning strategies that are inaccessible to base
models, even under extensive sampling. We introduce ProRL, a novel training
methodology that incorporates KL divergence control, reference policy
resetting, and a diverse suite of tasks. Our empirical analysis reveals that
RL-trained models consistently outperform base models across a wide range of
pass@k evaluations, including scenarios where base models fail entirely
regardless of the number of attempts. We further show that reasoning boundary
improvements correlates strongly with task competence of base model and
training duration, suggesting that RL can explore and populate new regions of
solution space over time. These findings offer new insights into the conditions
under which RL meaningfully expands reasoning boundaries in language models and
establish a foundation for future work on long-horizon RL for reasoning. We
release model weights to support further research:
https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B