OctoThinker : Les incitations en milieu d’entraînement favorisent la mise à l’échelle de l’apprentissage par renforcement
OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling
June 25, 2025
Auteurs: Zengzhi Wang, Fan Zhou, Xuefeng Li, Pengfei Liu
cs.AI
Résumé
Différentes familles de modèles de langage de base, telles que Llama et Qwen, présentent des comportements divergents lors de l’entraînement postérieur avec l’apprentissage par renforcement (RL), en particulier sur des tâches intensives en raisonnement. Qu’est-ce qui rend un modèle de langage de base adapté à l’apprentissage par renforcement ? Acquérir une compréhension approfondie de cette question est essentiel pour développer des modèles de fondation évolutifs avec RL de la prochaine génération. Dans ce travail, nous étudions comment les stratégies d’entraînement intermédiaire façonnent la dynamique du RL, en nous concentrant sur deux familles de modèles représentatives : Qwen et Llama. Notre étude révèle que (1) des corpus mathématiques de haute qualité, tels que MegaMath-Web-Pro, améliorent significativement les performances du modèle de base et du RL, tandis que les alternatives existantes (par exemple, FineMath-4plus) échouent à le faire ; (2) l’ajout supplémentaire de données de type question-réponse, en particulier des exemples de raisonnement en chaîne de pensée (CoT) longs, améliore les résultats du RL, et les données d’instruction débloquent davantage cet effet ; (3) bien que le CoT long améliore la profondeur du raisonnement, il peut également induire une verbosité des réponses du modèle et une instabilité de l’entraînement RL, soulignant l’importance du formatage des données ; (4) la mise à l’échelle de l’entraînement intermédiaire conduit systématiquement à de meilleures performances RL en aval. Sur la base de ces insights, nous introduisons une stratégie d’entraînement intermédiaire en deux étapes, Stable-then-Decay, dans laquelle les modèles de base sont d’abord entraînés sur 200 milliards de tokens avec un taux d’apprentissage constant, suivis de 20 milliards de tokens répartis sur trois branches axées sur le CoT avec une décroissance du taux d’apprentissage. Cela donne naissance à OctoThinker, une famille de modèles démontrant une forte compatibilité avec le RL et réduisant l’écart de performance avec des familles de modèles plus adaptées au RL, comme Qwen. Nous espérons que notre travail contribuera à façonner les stratégies de pré-entraînement pour les modèles de fondation à l’ère du RL. Pour soutenir des recherches ultérieures, nous publions nos modèles open-source ainsi qu’un corpus intensif en raisonnement mathématique soigneusement sélectionné de plus de 70 milliards de tokens (c’est-à-dire MegaMath-Web-Pro-Max).
English
Different base language model families, such as Llama and Qwen, exhibit
divergent behaviors during post-training with reinforcement learning (RL),
especially on reasoning-intensive tasks. What makes a base language model
suitable for reinforcement learning? Gaining deeper insight into this question
is essential for developing RL-scalable foundation models of the next
generation. In this work, we investigate how mid-training strategies shape RL
dynamics, focusing on two representative model families: Qwen and Llama. Our
study reveals that (1) high-quality mathematical corpora, such as
MegaMath-Web-Pro, significantly improve both base model and RL performance,
while existing alternatives (e.g., FineMath-4plus) fail to do so; (2) further
adding QA-style data, particularly long chain-of-thought (CoT) reasoning
examples, enhances RL outcomes, and instruction data further unlocks this
effect; (3) while long-CoT improves reasoning depth, it can also induce
verbosity of model responses and unstability of RL training, underscoring the
importance of data formatting; (4) scaling mid-training consistently leads to
stronger downstream RL performance. Building on these insights, we introduce a
two-stage mid-training strategy, Stable-then-Decay, in which base models are
first trained on 200B tokens with a constant learning rate, followed by 20B
tokens across three CoT-focused branches with learning rate decay. This yields
OctoThinker, a family of models demonstrating strong RL compatibility and
closing the performance gap with more RL-friendly model families, i.e., Qwen.
We hope our work will help shape pre-training strategies for foundation models
in the RL era. To support further research, we release our open-source models
along with a curated math reasoning-intensive corpus of over 70 billion tokens
(i.e., MegaMath-Web-Pro-Max).