OctoThinker: Los incentivos durante el entrenamiento potencian la escalabilidad del aprendizaje por refuerzo

Resumen

Diferentes familias de modelos de lenguaje base, como Llama y Qwen, exhiben comportamientos divergentes durante el entrenamiento posterior con aprendizaje por refuerzo (RL), especialmente en tareas intensivas en razonamiento. ¿Qué hace que un modelo de lenguaje base sea adecuado para el aprendizaje por refuerzo? Obtener una comprensión más profunda de esta pregunta es esencial para desarrollar modelos fundacionales escalables con RL de próxima generación. En este trabajo, investigamos cómo las estrategias de entrenamiento intermedio moldean la dinámica del RL, centrándonos en dos familias de modelos representativas: Qwen y Llama. Nuestro estudio revela que (1) los corpus matemáticos de alta calidad, como MegaMath-Web-Pro, mejoran significativamente tanto el rendimiento del modelo base como el del RL, mientras que las alternativas existentes (por ejemplo, FineMath-4plus) no logran hacerlo; (2) la adición de datos en formato de preguntas y respuestas (QA), particularmente ejemplos extensos de razonamiento en cadena de pensamiento (CoT), mejora los resultados del RL, y los datos de instrucción potencian aún más este efecto; (3) aunque el CoT extenso mejora la profundidad del razonamiento, también puede inducir verbosidad en las respuestas del modelo e inestabilidad en el entrenamiento del RL, subrayando la importancia del formato de los datos; (4) el escalamiento del entrenamiento intermedio conduce consistentemente a un mejor rendimiento del RL en tareas posteriores. Basándonos en estos hallazgos, introducimos una estrategia de entrenamiento intermedio en dos etapas, Estable-y-luego-Decae, en la que los modelos base se entrenan primero con 200B tokens con una tasa de aprendizaje constante, seguido de 20B tokens en tres ramas centradas en CoT con decaimiento de la tasa de aprendizaje. Esto da lugar a OctoThinker, una familia de modelos que demuestra una fuerte compatibilidad con el RL y reduce la brecha de rendimiento con familias de modelos más amigables al RL, como Qwen. Esperamos que nuestro trabajo ayude a definir estrategias de preentrenamiento para modelos fundacionales en la era del RL. Para apoyar investigaciones futuras, publicamos nuestros modelos de código abierto junto con un corpus curado de razonamiento matemático intensivo de más de 70 mil millones de tokens (es decir, MegaMath-Web-Pro-Max).

English

Different base language model families, such as Llama and Qwen, exhibit divergent behaviors during post-training with reinforcement learning (RL), especially on reasoning-intensive tasks. What makes a base language model suitable for reinforcement learning? Gaining deeper insight into this question is essential for developing RL-scalable foundation models of the next generation. In this work, we investigate how mid-training strategies shape RL dynamics, focusing on two representative model families: Qwen and Llama. Our study reveals that (1) high-quality mathematical corpora, such as MegaMath-Web-Pro, significantly improve both base model and RL performance, while existing alternatives (e.g., FineMath-4plus) fail to do so; (2) further adding QA-style data, particularly long chain-of-thought (CoT) reasoning examples, enhances RL outcomes, and instruction data further unlocks this effect; (3) while long-CoT improves reasoning depth, it can also induce verbosity of model responses and unstability of RL training, underscoring the importance of data formatting; (4) scaling mid-training consistently leads to stronger downstream RL performance. Building on these insights, we introduce a two-stage mid-training strategy, Stable-then-Decay, in which base models are first trained on 200B tokens with a constant learning rate, followed by 20B tokens across three CoT-focused branches with learning rate decay. This yields OctoThinker, a family of models demonstrating strong RL compatibility and closing the performance gap with more RL-friendly model families, i.e., Qwen. We hope our work will help shape pre-training strategies for foundation models in the RL era. To support further research, we release our open-source models along with a curated math reasoning-intensive corpus of over 70 billion tokens (i.e., MegaMath-Web-Pro-Max).

OctoThinker: Los incentivos durante el entrenamiento potencian la escalabilidad del aprendizaje por refuerzo

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

Resumen

Support