OctoThinker: Incentives tijdens de training bevorderen schaalbaarheid van reinforcement learning
OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling
June 25, 2025
Auteurs: Zengzhi Wang, Fan Zhou, Xuefeng Li, Pengfei Liu
cs.AI
Samenvatting
Verschillende basistaalmodel-families, zoals Llama en Qwen, vertonen uiteenlopend gedrag tijdens post-training met reinforcement learning (RL), vooral bij taken die intensief redeneren vereisen. Wat maakt een basistaalmodel geschikt voor reinforcement learning? Dieper inzicht in deze vraag is essentieel voor de ontwikkeling van RL-schaalbare foundationmodellen van de volgende generatie. In dit werk onderzoeken we hoe mid-training strategieën de RL-dynamiek beïnvloeden, met een focus op twee representatieve model-families: Qwen en Llama. Onze studie toont aan dat (1) hoogwaardige wiskundige corpora, zoals MegaMath-Web-Pro, zowel de prestaties van het basismodel als van RL aanzienlijk verbeteren, terwijl bestaande alternatieven (bijv. FineMath-4plus) dit niet doen; (2) het toevoegen van QA-stijl data, met name lange chain-of-thought (CoT) redeneringsvoorbeelden, de RL-resultaten verbetert, en instructiedata dit effect verder versterkt; (3) hoewel lange CoT de redeneringsdiepte verbetert, kan het ook leiden tot breedsprakigheid van modelreacties en instabiliteit van RL-training, wat het belang van dataformattering onderstreept; (4) schaling tijdens mid-training leidt consistent tot sterkere downstream RL-prestaties. Op basis van deze inzichten introduceren we een tweefasen mid-training strategie, Stable-then-Decay, waarbij basismodellen eerst getraind worden op 200B tokens met een constante leerratio, gevolgd door 20B tokens over drie CoT-gerichte takken met leerratio-afbouw. Dit resulteert in OctoThinker, een familie van modellen die sterke RL-compatibiliteit tonen en de prestatiekloof met meer RL-vriendelijke model-families, zoals Qwen, verkleinen. We hopen dat ons werk zal bijdragen aan het vormgeven van pre-training strategieën voor foundationmodellen in het RL-tijdperk. Om verder onderzoek te ondersteunen, geven we onze open-source modellen vrij, samen met een gecureerd wiskundig redeneringsintensief corpus van meer dan 70 miljard tokens (d.w.z. MegaMath-Web-Pro-Max).
English
Different base language model families, such as Llama and Qwen, exhibit
divergent behaviors during post-training with reinforcement learning (RL),
especially on reasoning-intensive tasks. What makes a base language model
suitable for reinforcement learning? Gaining deeper insight into this question
is essential for developing RL-scalable foundation models of the next
generation. In this work, we investigate how mid-training strategies shape RL
dynamics, focusing on two representative model families: Qwen and Llama. Our
study reveals that (1) high-quality mathematical corpora, such as
MegaMath-Web-Pro, significantly improve both base model and RL performance,
while existing alternatives (e.g., FineMath-4plus) fail to do so; (2) further
adding QA-style data, particularly long chain-of-thought (CoT) reasoning
examples, enhances RL outcomes, and instruction data further unlocks this
effect; (3) while long-CoT improves reasoning depth, it can also induce
verbosity of model responses and unstability of RL training, underscoring the
importance of data formatting; (4) scaling mid-training consistently leads to
stronger downstream RL performance. Building on these insights, we introduce a
two-stage mid-training strategy, Stable-then-Decay, in which base models are
first trained on 200B tokens with a constant learning rate, followed by 20B
tokens across three CoT-focused branches with learning rate decay. This yields
OctoThinker, a family of models demonstrating strong RL compatibility and
closing the performance gap with more RL-friendly model families, i.e., Qwen.
We hope our work will help shape pre-training strategies for foundation models
in the RL era. To support further research, we release our open-source models
along with a curated math reasoning-intensive corpus of over 70 billion tokens
(i.e., MegaMath-Web-Pro-Max).