Reinforcement Pre-Training

Samenvatting

In dit werk introduceren we Reinforcement Pre-Training (RPT) als een nieuwe schaalparadigma voor grote taalmodelen en reinforcement learning (RL). Specifiek herformuleren we next-token voorspelling als een redeneertaak die wordt getraind met RL, waarbij het verifieerbare beloningen ontvangt voor het correct voorspellen van het volgende token voor een gegeven context. RPT biedt een schaalbare methode om grote hoeveelheden tekstdata te benutten voor algemeen RL, in plaats van te vertrouwen op domeinspecifieke geannoteerde antwoorden. Door het vermogen tot next-token redeneren te stimuleren, verbetert RPT de nauwkeurigheid van taalmodelen bij het voorspellen van volgende tokens aanzienlijk. Bovendien biedt RPT een sterke voorgetrainde basis voor verdere reinforcement fine-tuning. De schaalcurven laten zien dat meer trainingscompute consistent leidt tot een hogere nauwkeurigheid bij next-token voorspelling. De resultaten positioneren RPT als een effectief en veelbelovend schaalparadigma om de voorbereiding van taalmodelen verder te bevorderen.

English

In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling paradigm for large language models and reinforcement learning (RL). Specifically, we reframe next-token prediction as a reasoning task trained using RL, where it receives verifiable rewards for correctly predicting the next token for a given context. RPT offers a scalable method to leverage vast amounts of text data for general-purpose RL, rather than relying on domain-specific annotated answers. By incentivizing the capability of next-token reasoning, RPT significantly improves the language modeling accuracy of predicting the next tokens. Moreover, RPT provides a strong pre-trained foundation for further reinforcement fine-tuning. The scaling curves show that increased training compute consistently improves the next-token prediction accuracy. The results position RPT as an effective and promising scaling paradigm to advance language model pre-training.