OctoThinker: Incentives tijdens de training bevorderen schaalbaarheid van reinforcement learning

Samenvatting

Verschillende basistaalmodel-families, zoals Llama en Qwen, vertonen uiteenlopend gedrag tijdens post-training met reinforcement learning (RL), vooral bij taken die intensief redeneren vereisen. Wat maakt een basistaalmodel geschikt voor reinforcement learning? Dieper inzicht in deze vraag is essentieel voor de ontwikkeling van RL-schaalbare foundationmodellen van de volgende generatie. In dit werk onderzoeken we hoe mid-training strategieën de RL-dynamiek beïnvloeden, met een focus op twee representatieve model-families: Qwen en Llama. Onze studie toont aan dat (1) hoogwaardige wiskundige corpora, zoals MegaMath-Web-Pro, zowel de prestaties van het basismodel als van RL aanzienlijk verbeteren, terwijl bestaande alternatieven (bijv. FineMath-4plus) dit niet doen; (2) het toevoegen van QA-stijl data, met name lange chain-of-thought (CoT) redeneringsvoorbeelden, de RL-resultaten verbetert, en instructiedata dit effect verder versterkt; (3) hoewel lange CoT de redeneringsdiepte verbetert, kan het ook leiden tot breedsprakigheid van modelreacties en instabiliteit van RL-training, wat het belang van dataformattering onderstreept; (4) schaling tijdens mid-training leidt consistent tot sterkere downstream RL-prestaties. Op basis van deze inzichten introduceren we een tweefasen mid-training strategie, Stable-then-Decay, waarbij basismodellen eerst getraind worden op 200B tokens met een constante leerratio, gevolgd door 20B tokens over drie CoT-gerichte takken met leerratio-afbouw. Dit resulteert in OctoThinker, een familie van modellen die sterke RL-compatibiliteit tonen en de prestatiekloof met meer RL-vriendelijke model-families, zoals Qwen, verkleinen. We hopen dat ons werk zal bijdragen aan het vormgeven van pre-training strategieën voor foundationmodellen in het RL-tijdperk. Om verder onderzoek te ondersteunen, geven we onze open-source modellen vrij, samen met een gecureerd wiskundig redeneringsintensief corpus van meer dan 70 miljard tokens (d.w.z. MegaMath-Web-Pro-Max).

English

Different base language model families, such as Llama and Qwen, exhibit divergent behaviors during post-training with reinforcement learning (RL), especially on reasoning-intensive tasks. What makes a base language model suitable for reinforcement learning? Gaining deeper insight into this question is essential for developing RL-scalable foundation models of the next generation. In this work, we investigate how mid-training strategies shape RL dynamics, focusing on two representative model families: Qwen and Llama. Our study reveals that (1) high-quality mathematical corpora, such as MegaMath-Web-Pro, significantly improve both base model and RL performance, while existing alternatives (e.g., FineMath-4plus) fail to do so; (2) further adding QA-style data, particularly long chain-of-thought (CoT) reasoning examples, enhances RL outcomes, and instruction data further unlocks this effect; (3) while long-CoT improves reasoning depth, it can also induce verbosity of model responses and unstability of RL training, underscoring the importance of data formatting; (4) scaling mid-training consistently leads to stronger downstream RL performance. Building on these insights, we introduce a two-stage mid-training strategy, Stable-then-Decay, in which base models are first trained on 200B tokens with a constant learning rate, followed by 20B tokens across three CoT-focused branches with learning rate decay. This yields OctoThinker, a family of models demonstrating strong RL compatibility and closing the performance gap with more RL-friendly model families, i.e., Qwen. We hope our work will help shape pre-training strategies for foundation models in the RL era. To support further research, we release our open-source models along with a curated math reasoning-intensive corpus of over 70 billion tokens (i.e., MegaMath-Web-Pro-Max).

OctoThinker: Incentives tijdens de training bevorderen schaalbaarheid van reinforcement learning

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

Samenvatting

Support