OctoThinker : Les incitations en milieu d’entraînement favorisent la mise à l’échelle de l’apprentissage par renforcement

papers.abstract

Différentes familles de modèles de langage de base, telles que Llama et Qwen, présentent des comportements divergents lors de l’entraînement postérieur avec l’apprentissage par renforcement (RL), en particulier sur des tâches intensives en raisonnement. Qu’est-ce qui rend un modèle de langage de base adapté à l’apprentissage par renforcement ? Acquérir une compréhension approfondie de cette question est essentiel pour développer des modèles de fondation évolutifs avec RL de la prochaine génération. Dans ce travail, nous étudions comment les stratégies d’entraînement intermédiaire façonnent la dynamique du RL, en nous concentrant sur deux familles de modèles représentatives : Qwen et Llama. Notre étude révèle que (1) des corpus mathématiques de haute qualité, tels que MegaMath-Web-Pro, améliorent significativement les performances du modèle de base et du RL, tandis que les alternatives existantes (par exemple, FineMath-4plus) échouent à le faire ; (2) l’ajout supplémentaire de données de type question-réponse, en particulier des exemples de raisonnement en chaîne de pensée (CoT) longs, améliore les résultats du RL, et les données d’instruction débloquent davantage cet effet ; (3) bien que le CoT long améliore la profondeur du raisonnement, il peut également induire une verbosité des réponses du modèle et une instabilité de l’entraînement RL, soulignant l’importance du formatage des données ; (4) la mise à l’échelle de l’entraînement intermédiaire conduit systématiquement à de meilleures performances RL en aval. Sur la base de ces insights, nous introduisons une stratégie d’entraînement intermédiaire en deux étapes, Stable-then-Decay, dans laquelle les modèles de base sont d’abord entraînés sur 200 milliards de tokens avec un taux d’apprentissage constant, suivis de 20 milliards de tokens répartis sur trois branches axées sur le CoT avec une décroissance du taux d’apprentissage. Cela donne naissance à OctoThinker, une famille de modèles démontrant une forte compatibilité avec le RL et réduisant l’écart de performance avec des familles de modèles plus adaptées au RL, comme Qwen. Nous espérons que notre travail contribuera à façonner les stratégies de pré-entraînement pour les modèles de fondation à l’ère du RL. Pour soutenir des recherches ultérieures, nous publions nos modèles open-source ainsi qu’un corpus intensif en raisonnement mathématique soigneusement sélectionné de plus de 70 milliards de tokens (c’est-à-dire MegaMath-Web-Pro-Max).

English

Different base language model families, such as Llama and Qwen, exhibit divergent behaviors during post-training with reinforcement learning (RL), especially on reasoning-intensive tasks. What makes a base language model suitable for reinforcement learning? Gaining deeper insight into this question is essential for developing RL-scalable foundation models of the next generation. In this work, we investigate how mid-training strategies shape RL dynamics, focusing on two representative model families: Qwen and Llama. Our study reveals that (1) high-quality mathematical corpora, such as MegaMath-Web-Pro, significantly improve both base model and RL performance, while existing alternatives (e.g., FineMath-4plus) fail to do so; (2) further adding QA-style data, particularly long chain-of-thought (CoT) reasoning examples, enhances RL outcomes, and instruction data further unlocks this effect; (3) while long-CoT improves reasoning depth, it can also induce verbosity of model responses and unstability of RL training, underscoring the importance of data formatting; (4) scaling mid-training consistently leads to stronger downstream RL performance. Building on these insights, we introduce a two-stage mid-training strategy, Stable-then-Decay, in which base models are first trained on 200B tokens with a constant learning rate, followed by 20B tokens across three CoT-focused branches with learning rate decay. This yields OctoThinker, a family of models demonstrating strong RL compatibility and closing the performance gap with more RL-friendly model families, i.e., Qwen. We hope our work will help shape pre-training strategies for foundation models in the RL era. To support further research, we release our open-source models along with a curated math reasoning-intensive corpus of over 70 billion tokens (i.e., MegaMath-Web-Pro-Max).

OctoThinker : Les incitations en milieu d’entraînement favorisent la mise à l’échelle de l’apprentissage par renforcement

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

papers.abstract

Support