Pre-Addestramento con Rinforzo
Reinforcement Pre-Training
June 9, 2025
Autori: Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
cs.AI
Abstract
In questo lavoro, introduciamo il Reinforcement Pre-Training (RPT) come un nuovo paradigma di scalabilità per i grandi modelli linguistici e l'apprendimento per rinforzo (RL). Nello specifico, riformuliamo la previsione del token successivo come un compito di ragionamento addestrato utilizzando RL, in cui il modello riceve ricompense verificabili per aver previsto correttamente il token successivo dato un contesto. RPT offre un metodo scalabile per sfruttare grandi quantità di dati testuali per l'apprendimento per rinforzo di tipo generale, anziché affidarsi a risposte annotate specifiche per dominio. Incentivando la capacità di ragionamento sui token successivi, RPT migliora significativamente l'accuratezza della modellazione linguistica nella previsione dei token successivi. Inoltre, RPT fornisce una solida base pre-addestrata per un ulteriore fine-tuning con rinforzo. Le curve di scalabilità mostrano che l'aumento della potenza di calcolo durante l'addestramento migliora costantemente l'accuratezza nella previsione dei token successivi. I risultati posizionano RPT come un paradigma di scalabilità efficace e promettente per avanzare il pre-addestramento dei modelli linguistici.
English
In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling
paradigm for large language models and reinforcement learning (RL).
Specifically, we reframe next-token prediction as a reasoning task trained
using RL, where it receives verifiable rewards for correctly predicting the
next token for a given context. RPT offers a scalable method to leverage vast
amounts of text data for general-purpose RL, rather than relying on
domain-specific annotated answers. By incentivizing the capability of
next-token reasoning, RPT significantly improves the language modeling accuracy
of predicting the next tokens. Moreover, RPT provides a strong pre-trained
foundation for further reinforcement fine-tuning. The scaling curves show that
increased training compute consistently improves the next-token prediction
accuracy. The results position RPT as an effective and promising scaling
paradigm to advance language model pre-training.