OctoThinker: Incentivos durante o treinamento promovem a escalabilidade do Aprendizado por Reforço

Resumo

Diferentes famílias de modelos de linguagem base, como Llama e Qwen, exibem comportamentos divergentes durante o pós-treinamento com aprendizado por reforço (RL), especialmente em tarefas que exigem raciocínio intensivo. O que torna um modelo de linguagem base adequado para o aprendizado por reforço? Obter uma compreensão mais profunda dessa questão é essencial para o desenvolvimento de modelos de base escaláveis para RL da próxima geração. Neste trabalho, investigamos como estratégias de treinamento intermediário moldam a dinâmica do RL, com foco em duas famílias de modelos representativas: Qwen e Llama. Nosso estudo revela que (1) corpora matemáticos de alta qualidade, como o MegaMath-Web-Pro, melhoram significativamente tanto o desempenho do modelo base quanto o RL, enquanto alternativas existentes (por exemplo, FineMath-4plus) não conseguem fazer o mesmo; (2) a adição de dados no formato de perguntas e respostas (QA), particularmente exemplos longos de raciocínio em cadeia (chain-of-thought, CoT), aprimora os resultados do RL, e dados de instrução potencializam ainda mais esse efeito; (3) embora o CoT longo melhore a profundidade do raciocínio, ele também pode induzir verbosidade nas respostas do modelo e instabilidade no treinamento de RL, destacando a importância da formatação dos dados; (4) o escalonamento do treinamento intermediário consistentemente leva a um desempenho de RL mais robusto a jusante. Com base nessas descobertas, introduzimos uma estratégia de treinamento intermediário em duas etapas, Stable-then-Decay, na qual os modelos base são primeiro treinados em 200 bilhões de tokens com uma taxa de aprendizado constante, seguidos por 20 bilhões de tokens em três ramos focados em CoT com decaimento da taxa de aprendizado. Isso resulta no OctoThinker, uma família de modelos que demonstra forte compatibilidade com RL e reduz a lacuna de desempenho em relação a famílias de modelos mais amigáveis ao RL, como o Qwen. Esperamos que nosso trabalho ajude a moldar estratégias de pré-treinamento para modelos de base na era do RL. Para apoiar pesquisas futuras, disponibilizamos nossos modelos de código aberto, juntamente com um corpus curado de raciocínio matemático intensivo com mais de 70 bilhões de tokens (ou seja, MegaMath-Web-Pro-Max).

English

Different base language model families, such as Llama and Qwen, exhibit divergent behaviors during post-training with reinforcement learning (RL), especially on reasoning-intensive tasks. What makes a base language model suitable for reinforcement learning? Gaining deeper insight into this question is essential for developing RL-scalable foundation models of the next generation. In this work, we investigate how mid-training strategies shape RL dynamics, focusing on two representative model families: Qwen and Llama. Our study reveals that (1) high-quality mathematical corpora, such as MegaMath-Web-Pro, significantly improve both base model and RL performance, while existing alternatives (e.g., FineMath-4plus) fail to do so; (2) further adding QA-style data, particularly long chain-of-thought (CoT) reasoning examples, enhances RL outcomes, and instruction data further unlocks this effect; (3) while long-CoT improves reasoning depth, it can also induce verbosity of model responses and unstability of RL training, underscoring the importance of data formatting; (4) scaling mid-training consistently leads to stronger downstream RL performance. Building on these insights, we introduce a two-stage mid-training strategy, Stable-then-Decay, in which base models are first trained on 200B tokens with a constant learning rate, followed by 20B tokens across three CoT-focused branches with learning rate decay. This yields OctoThinker, a family of models demonstrating strong RL compatibility and closing the performance gap with more RL-friendly model families, i.e., Qwen. We hope our work will help shape pre-training strategies for foundation models in the RL era. To support further research, we release our open-source models along with a curated math reasoning-intensive corpus of over 70 billion tokens (i.e., MegaMath-Web-Pro-Max).

OctoThinker: Incentivos durante o treinamento promovem a escalabilidade do Aprendizado por Reforço

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

Resumo

Support