ChatPaper.aiChatPaper

OctoThinker: Gli incentivi durante l'addestramento favoriscono il ridimensionamento dell'apprendimento per rinforzo

OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling

June 25, 2025
Autori: Zengzhi Wang, Fan Zhou, Xuefeng Li, Pengfei Liu
cs.AI

Abstract

Diverse famiglie di modelli linguistici di base, come Llama e Qwen, mostrano comportamenti divergenti durante il post-addestramento con apprendimento per rinforzo (RL), specialmente su compiti ad alta intensità di ragionamento. Cosa rende un modello linguistico di base adatto per l'apprendimento per rinforzo? Approfondire questa domanda è essenziale per sviluppare modelli fondanti scalabili con RL di prossima generazione. In questo lavoro, indaghiamo come le strategie di mid-training influenzano la dinamica dell'RL, concentrandoci su due famiglie di modelli rappresentative: Qwen e Llama. Il nostro studio rivela che (1) corpora matematici di alta qualità, come MegaMath-Web-Pro, migliorano significativamente sia le prestazioni del modello di base che quelle dell'RL, mentre alternative esistenti (ad esempio, FineMath-4plus) non riescono a farlo; (2) l'aggiunta ulteriore di dati in stile QA, in particolare esempi di ragionamento a catena di pensiero (CoT) lunghi, migliora i risultati dell'RL, e i dati di istruzione sbloccano ulteriormente questo effetto; (3) mentre il CoT lungo migliora la profondità del ragionamento, può anche indurre verbosità nelle risposte del modello e instabilità nell'addestramento RL, sottolineando l'importanza della formattazione dei dati; (4) il ridimensionamento del mid-training porta costantemente a prestazioni RL a valle più forti. Basandoci su queste intuizioni, introduciamo una strategia di mid-training in due fasi, Stable-then-Decay, in cui i modelli di base vengono prima addestrati su 200B token con un tasso di apprendimento costante, seguiti da 20B token su tre rami focalizzati sul CoT con decadimento del tasso di apprendimento. Questo produce OctoThinker, una famiglia di modelli che dimostra una forte compatibilità con l'RL e riduce il divario di prestazioni con famiglie di modelli più amichevoli per l'RL, come Qwen. Speriamo che il nostro lavoro contribuisca a definire strategie di pre-addestramento per modelli fondanti nell'era dell'RL. Per supportare ulteriori ricerche, rilasciamo i nostri modelli open-source insieme a un corpus curato di ragionamento matematico intensivo di oltre 70 miliardi di token (cioè, MegaMath-Web-Pro-Max).
English
Different base language model families, such as Llama and Qwen, exhibit divergent behaviors during post-training with reinforcement learning (RL), especially on reasoning-intensive tasks. What makes a base language model suitable for reinforcement learning? Gaining deeper insight into this question is essential for developing RL-scalable foundation models of the next generation. In this work, we investigate how mid-training strategies shape RL dynamics, focusing on two representative model families: Qwen and Llama. Our study reveals that (1) high-quality mathematical corpora, such as MegaMath-Web-Pro, significantly improve both base model and RL performance, while existing alternatives (e.g., FineMath-4plus) fail to do so; (2) further adding QA-style data, particularly long chain-of-thought (CoT) reasoning examples, enhances RL outcomes, and instruction data further unlocks this effect; (3) while long-CoT improves reasoning depth, it can also induce verbosity of model responses and unstability of RL training, underscoring the importance of data formatting; (4) scaling mid-training consistently leads to stronger downstream RL performance. Building on these insights, we introduce a two-stage mid-training strategy, Stable-then-Decay, in which base models are first trained on 200B tokens with a constant learning rate, followed by 20B tokens across three CoT-focused branches with learning rate decay. This yields OctoThinker, a family of models demonstrating strong RL compatibility and closing the performance gap with more RL-friendly model families, i.e., Qwen. We hope our work will help shape pre-training strategies for foundation models in the RL era. To support further research, we release our open-source models along with a curated math reasoning-intensive corpus of over 70 billion tokens (i.e., MegaMath-Web-Pro-Max).
PDF421June 26, 2025