OctoThinker: Los incentivos durante el entrenamiento potencian la escalabilidad del aprendizaje por refuerzo
OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling
June 25, 2025
Autores: Zengzhi Wang, Fan Zhou, Xuefeng Li, Pengfei Liu
cs.AI
Resumen
Diferentes familias de modelos de lenguaje base, como Llama y Qwen, exhiben comportamientos divergentes durante el entrenamiento posterior con aprendizaje por refuerzo (RL), especialmente en tareas intensivas en razonamiento. ¿Qué hace que un modelo de lenguaje base sea adecuado para el aprendizaje por refuerzo? Obtener una comprensión más profunda de esta pregunta es esencial para desarrollar modelos fundacionales escalables con RL de próxima generación. En este trabajo, investigamos cómo las estrategias de entrenamiento intermedio moldean la dinámica del RL, centrándonos en dos familias de modelos representativas: Qwen y Llama. Nuestro estudio revela que (1) los corpus matemáticos de alta calidad, como MegaMath-Web-Pro, mejoran significativamente tanto el rendimiento del modelo base como el del RL, mientras que las alternativas existentes (por ejemplo, FineMath-4plus) no logran hacerlo; (2) la adición de datos en formato de preguntas y respuestas (QA), particularmente ejemplos extensos de razonamiento en cadena de pensamiento (CoT), mejora los resultados del RL, y los datos de instrucción potencian aún más este efecto; (3) aunque el CoT extenso mejora la profundidad del razonamiento, también puede inducir verbosidad en las respuestas del modelo e inestabilidad en el entrenamiento del RL, subrayando la importancia del formato de los datos; (4) el escalamiento del entrenamiento intermedio conduce consistentemente a un mejor rendimiento del RL en tareas posteriores. Basándonos en estos hallazgos, introducimos una estrategia de entrenamiento intermedio en dos etapas, Estable-y-luego-Decae, en la que los modelos base se entrenan primero con 200B tokens con una tasa de aprendizaje constante, seguido de 20B tokens en tres ramas centradas en CoT con decaimiento de la tasa de aprendizaje. Esto da lugar a OctoThinker, una familia de modelos que demuestra una fuerte compatibilidad con el RL y reduce la brecha de rendimiento con familias de modelos más amigables al RL, como Qwen. Esperamos que nuestro trabajo ayude a definir estrategias de preentrenamiento para modelos fundacionales en la era del RL. Para apoyar investigaciones futuras, publicamos nuestros modelos de código abierto junto con un corpus curado de razonamiento matemático intensivo de más de 70 mil millones de tokens (es decir, MegaMath-Web-Pro-Max).
English
Different base language model families, such as Llama and Qwen, exhibit
divergent behaviors during post-training with reinforcement learning (RL),
especially on reasoning-intensive tasks. What makes a base language model
suitable for reinforcement learning? Gaining deeper insight into this question
is essential for developing RL-scalable foundation models of the next
generation. In this work, we investigate how mid-training strategies shape RL
dynamics, focusing on two representative model families: Qwen and Llama. Our
study reveals that (1) high-quality mathematical corpora, such as
MegaMath-Web-Pro, significantly improve both base model and RL performance,
while existing alternatives (e.g., FineMath-4plus) fail to do so; (2) further
adding QA-style data, particularly long chain-of-thought (CoT) reasoning
examples, enhances RL outcomes, and instruction data further unlocks this
effect; (3) while long-CoT improves reasoning depth, it can also induce
verbosity of model responses and unstability of RL training, underscoring the
importance of data formatting; (4) scaling mid-training consistently leads to
stronger downstream RL performance. Building on these insights, we introduce a
two-stage mid-training strategy, Stable-then-Decay, in which base models are
first trained on 200B tokens with a constant learning rate, followed by 20B
tokens across three CoT-focused branches with learning rate decay. This yields
OctoThinker, a family of models demonstrating strong RL compatibility and
closing the performance gap with more RL-friendly model families, i.e., Qwen.
We hope our work will help shape pre-training strategies for foundation models
in the RL era. To support further research, we release our open-source models
along with a curated math reasoning-intensive corpus of over 70 billion tokens
(i.e., MegaMath-Web-Pro-Max).