Pré-entraînement par Renforcement
Reinforcement Pre-Training
June 9, 2025
Auteurs: Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
cs.AI
Résumé
Dans ce travail, nous introduisons le Pré-entraînement par Renforcement (Reinforcement Pre-Training, RPT) comme un nouveau paradigme de mise à l'échelle pour les grands modèles de langage et l'apprentissage par renforcement (RL). Plus précisément, nous reformulons la prédiction du token suivant comme une tâche de raisonnement entraînée à l'aide du RL, où le modèle reçoit des récompenses vérifiables pour prédire correctement le token suivant dans un contexte donné. RPT offre une méthode évolutive pour exploiter de vastes quantités de données textuelles dans le cadre du RL à usage général, plutôt que de dépendre de réponses annotées spécifiques à un domaine. En encourageant la capacité de raisonnement pour prédire les tokens suivants, RPT améliore significativement la précision de la modélisation du langage pour ces prédictions. De plus, RPT fournit une base pré-entraînée solide pour un affinage ultérieur par renforcement. Les courbes de mise à l'échelle montrent qu'une augmentation des ressources de calcul d'entraînement améliore systématiquement la précision de la prédiction des tokens suivants. Les résultats positionnent RPT comme un paradigme de mise à l'échelle efficace et prometteur pour faire progresser le pré-entraînement des modèles de langage.
English
In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling
paradigm for large language models and reinforcement learning (RL).
Specifically, we reframe next-token prediction as a reasoning task trained
using RL, where it receives verifiable rewards for correctly predicting the
next token for a given context. RPT offers a scalable method to leverage vast
amounts of text data for general-purpose RL, rather than relying on
domain-specific annotated answers. By incentivizing the capability of
next-token reasoning, RPT significantly improves the language modeling accuracy
of predicting the next tokens. Moreover, RPT provides a strong pre-trained
foundation for further reinforcement fine-tuning. The scaling curves show that
increased training compute consistently improves the next-token prediction
accuracy. The results position RPT as an effective and promising scaling
paradigm to advance language model pre-training.