ChatPaper.aiChatPaper

Pre-Addestramento con Rinforzo

Reinforcement Pre-Training

June 9, 2025
Autori: Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
cs.AI

Abstract

In questo lavoro, introduciamo il Reinforcement Pre-Training (RPT) come un nuovo paradigma di scalabilità per i grandi modelli linguistici e l'apprendimento per rinforzo (RL). Nello specifico, riformuliamo la previsione del token successivo come un compito di ragionamento addestrato utilizzando RL, in cui il modello riceve ricompense verificabili per aver previsto correttamente il token successivo dato un contesto. RPT offre un metodo scalabile per sfruttare grandi quantità di dati testuali per l'apprendimento per rinforzo di tipo generale, anziché affidarsi a risposte annotate specifiche per dominio. Incentivando la capacità di ragionamento sui token successivi, RPT migliora significativamente l'accuratezza della modellazione linguistica nella previsione dei token successivi. Inoltre, RPT fornisce una solida base pre-addestrata per un ulteriore fine-tuning con rinforzo. Le curve di scalabilità mostrano che l'aumento della potenza di calcolo durante l'addestramento migliora costantemente l'accuratezza nella previsione dei token successivi. I risultati posizionano RPT come un paradigma di scalabilità efficace e promettente per avanzare il pre-addestramento dei modelli linguistici.
English
In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling paradigm for large language models and reinforcement learning (RL). Specifically, we reframe next-token prediction as a reasoning task trained using RL, where it receives verifiable rewards for correctly predicting the next token for a given context. RPT offers a scalable method to leverage vast amounts of text data for general-purpose RL, rather than relying on domain-specific annotated answers. By incentivizing the capability of next-token reasoning, RPT significantly improves the language modeling accuracy of predicting the next tokens. Moreover, RPT provides a strong pre-trained foundation for further reinforcement fine-tuning. The scaling curves show that increased training compute consistently improves the next-token prediction accuracy. The results position RPT as an effective and promising scaling paradigm to advance language model pre-training.
PDF20518June 10, 2025