Reinforcement Pre-Training
Reinforcement Pre-Training
June 9, 2025
Auteurs: Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
cs.AI
Samenvatting
In dit werk introduceren we Reinforcement Pre-Training (RPT) als een nieuwe schaalparadigma voor grote taalmodelen en reinforcement learning (RL). Specifiek herformuleren we next-token voorspelling als een redeneertaak die wordt getraind met RL, waarbij het verifieerbare beloningen ontvangt voor het correct voorspellen van het volgende token voor een gegeven context. RPT biedt een schaalbare methode om grote hoeveelheden tekstdata te benutten voor algemeen RL, in plaats van te vertrouwen op domeinspecifieke geannoteerde antwoorden. Door het vermogen tot next-token redeneren te stimuleren, verbetert RPT de nauwkeurigheid van taalmodelen bij het voorspellen van volgende tokens aanzienlijk. Bovendien biedt RPT een sterke voorgetrainde basis voor verdere reinforcement fine-tuning. De schaalcurven laten zien dat meer trainingscompute consistent leidt tot een hogere nauwkeurigheid bij next-token voorspelling. De resultaten positioneren RPT als een effectief en veelbelovend schaalparadigma om de voorbereiding van taalmodelen verder te bevorderen.
English
In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling
paradigm for large language models and reinforcement learning (RL).
Specifically, we reframe next-token prediction as a reasoning task trained
using RL, where it receives verifiable rewards for correctly predicting the
next token for a given context. RPT offers a scalable method to leverage vast
amounts of text data for general-purpose RL, rather than relying on
domain-specific annotated answers. By incentivizing the capability of
next-token reasoning, RPT significantly improves the language modeling accuracy
of predicting the next tokens. Moreover, RPT provides a strong pre-trained
foundation for further reinforcement fine-tuning. The scaling curves show that
increased training compute consistently improves the next-token prediction
accuracy. The results position RPT as an effective and promising scaling
paradigm to advance language model pre-training.