ChatPaper.aiChatPaper

Verstärkendes Vor-Training

Reinforcement Pre-Training

June 9, 2025
Autoren: Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, Furu Wei
cs.AI

Zusammenfassung

In dieser Arbeit stellen wir Reinforcement Pre-Training (RPT) als neues Skalierungsparadigma für große Sprachmodelle und Reinforcement Learning (RL) vor. Konkret formulieren wir die Vorhersage des nächsten Tokens als eine mit RL trainierte Denkaufgabe, bei der das Modell überprüfbare Belohnungen für die korrekte Vorhersage des nächsten Tokens in einem gegebenen Kontext erhält. RPT bietet eine skalierbare Methode, um große Mengen an Textdaten für allgemeines RL zu nutzen, anstatt sich auf domänenspezifisch annotierte Antworten zu verlassen. Durch die Förderung der Fähigkeit zur nächsten Token-Vorhersage verbessert RPT die Genauigkeit der Sprachmodellierung bei der Vorhersage der nächsten Tokens erheblich. Darüber hinaus bietet RPT eine solide vortrainierte Grundlage für weitere Reinforcement-Fine-Tuning. Die Skalierungskurven zeigen, dass ein erhöhter Trainingsrechenaufwand die Genauigkeit der nächsten Token-Vorhersage kontinuierlich steigert. Die Ergebnisse positionieren RPT als ein effektives und vielversprechendes Skalierungsparadigma zur Weiterentwicklung des Vortrainings von Sprachmodellen.
English
In this work, we introduce Reinforcement Pre-Training (RPT) as a new scaling paradigm for large language models and reinforcement learning (RL). Specifically, we reframe next-token prediction as a reasoning task trained using RL, where it receives verifiable rewards for correctly predicting the next token for a given context. RPT offers a scalable method to leverage vast amounts of text data for general-purpose RL, rather than relying on domain-specific annotated answers. By incentivizing the capability of next-token reasoning, RPT significantly improves the language modeling accuracy of predicting the next tokens. Moreover, RPT provides a strong pre-trained foundation for further reinforcement fine-tuning. The scaling curves show that increased training compute consistently improves the next-token prediction accuracy. The results position RPT as an effective and promising scaling paradigm to advance language model pre-training.
PDF19416June 10, 2025