OctoThinker: Anreize während des Trainings fördern die Skalierung von Reinforcement Learning

papers.abstract

Verschiedene Basissprachmodellfamilien, wie Llama und Qwen, zeigen unterschiedliche Verhaltensweisen während des Post-Trainings mit Verstärkungslernen (Reinforcement Learning, RL), insbesondere bei aufschlussreichen Aufgaben. Was macht ein Basissprachmodell für Verstärkungslernen geeignet? Ein tieferes Verständnis dieser Frage ist entscheidend für die Entwicklung von RL-skalierbaren Grundmodellen der nächsten Generation. In dieser Arbeit untersuchen wir, wie Mid-Training-Strategien die RL-Dynamik beeinflussen, mit einem Fokus auf zwei repräsentative Modellfamilien: Qwen und Llama. Unsere Studie zeigt, dass (1) hochwertige mathematische Korpora, wie MegaMath-Web-Pro, sowohl die Leistung des Basismodells als auch die RL-Leistung signifikant verbessern, während bestehende Alternativen (z.B. FineMath-4plus) dies nicht erreichen; (2) die zusätzliche Einbindung von QA-Daten, insbesondere langen Chain-of-Thought (CoT)-Beispielen, die RL-Ergebnisse verbessert, und Instruktionsdaten diesen Effekt weiter freisetzen; (3) während lange CoT die Tiefe der Argumentation verbessert, kann dies auch zu ausführlichen Modellantworten und Instabilität im RL-Training führen, was die Bedeutung der Datenformatierung unterstreicht; (4) die Skalierung des Mid-Trainings führt konsequent zu einer stärkeren nachgelagerten RL-Leistung. Basierend auf diesen Erkenntnissen führen wir eine zweistufige Mid-Training-Strategie ein, Stable-then-Decay, bei der Basismodelle zunächst mit einer konstanten Lernrate auf 200B Tokens trainiert werden, gefolgt von 20B Tokens über drei CoT-fokussierte Zweige mit Lernratenabnahme. Dies führt zu OctoThinker, einer Modellfamilie, die eine starke RL-Kompatibilität aufweist und die Leistungslücke zu RL-freundlicheren Modellfamilien, wie Qwen, schließt. Wir hoffen, dass unsere Arbeit dazu beiträgt, Pre-Training-Strategien für Grundmodelle im RL-Zeitalter zu gestalten. Um weitere Forschungen zu unterstützen, veröffentlichen wir unsere Open-Source-Modelle zusammen mit einem kuratierten mathematischen Argumentationskorpus von über 70 Milliarden Tokens (d.h. MegaMath-Web-Pro-Max).

English

Different base language model families, such as Llama and Qwen, exhibit divergent behaviors during post-training with reinforcement learning (RL), especially on reasoning-intensive tasks. What makes a base language model suitable for reinforcement learning? Gaining deeper insight into this question is essential for developing RL-scalable foundation models of the next generation. In this work, we investigate how mid-training strategies shape RL dynamics, focusing on two representative model families: Qwen and Llama. Our study reveals that (1) high-quality mathematical corpora, such as MegaMath-Web-Pro, significantly improve both base model and RL performance, while existing alternatives (e.g., FineMath-4plus) fail to do so; (2) further adding QA-style data, particularly long chain-of-thought (CoT) reasoning examples, enhances RL outcomes, and instruction data further unlocks this effect; (3) while long-CoT improves reasoning depth, it can also induce verbosity of model responses and unstability of RL training, underscoring the importance of data formatting; (4) scaling mid-training consistently leads to stronger downstream RL performance. Building on these insights, we introduce a two-stage mid-training strategy, Stable-then-Decay, in which base models are first trained on 200B tokens with a constant learning rate, followed by 20B tokens across three CoT-focused branches with learning rate decay. This yields OctoThinker, a family of models demonstrating strong RL compatibility and closing the performance gap with more RL-friendly model families, i.e., Qwen. We hope our work will help shape pre-training strategies for foundation models in the RL era. To support further research, we release our open-source models along with a curated math reasoning-intensive corpus of over 70 billion tokens (i.e., MegaMath-Web-Pro-Max).

OctoThinker: Anreize während des Trainings fördern die Skalierung von Reinforcement Learning

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

papers.abstract

Support