Rinforzo a Metà Addestramento
Reinforcement Mid-Training
September 29, 2025
Autori: Yijun Tian, Shaoyu Chen, Zhichao Xu, Yawei Wang, Jinhe Bi, Peng Han, Wei Wang
cs.AI
Abstract
Lo sviluppo di modelli linguistici all'avanguardia è comunemente inteso come un processo in due fasi che coinvolge pre-training e post-training. Sottolineiamo la necessità di una fase intermedia aggiuntiva chiamata reinforcement mid-training, con potenziali significativi guadagni di prestazioni. In questo articolo, definiamo formalmente il problema e identifichiamo tre sfide chiave: (1) inefficienza nell'addestramento dovuta a un eccessivo numero di passaggi di ragionamento, (2) mancata considerazione della distribuzione sbilanciata dell'entropia dei token, e (3) sottoutilizzazione delle informazioni dei token. Per affrontare queste sfide, proponiamo RMT, un framework per un reinforcement mid-training efficiente, adattivo e unificato, con vari componenti innovativi. In particolare, introduciamo prima un meccanismo di budget dinamico dei token che limita i passaggi di ragionamento non necessari e mitiga il sovra-pensiero del modello. Successivamente, progettiamo un metodo di campionamento adattivo basato su curriculum che favorisce una traiettoria di apprendimento progressiva dai token facili a quelli difficili. Infine, presentiamo una strategia di addestramento duale che combina il reinforcement learning con la previsione del token successivo, garantendo un apprendimento mirato sui token chiave e lo sfruttamento completo di tutte le informazioni dei token. Esperimenti estensivi dimostrano la superiorità di RMT rispetto ai metodi all'avanguardia, raggiungendo un miglioramento delle prestazioni fino al +64,91% con solo il 21% della lunghezza del ragionamento nella modellazione del linguaggio. Mostriamo inoltre che i checkpoint ottenuti dopo il reinforcement mid-training possono beneficiare il successivo post-training, ottenendo un miglioramento fino al +18,76% nel dominio matematico.
English
The development of state-of-the-art large language models is commonly
understood as a two-stage process involving pre-training and post-training. We
point out the need for an additional intermediate stage called reinforcement
mid-training with potential for strong performance gains. In this paper, we
formally define the problem and identify three key challenges: (1) inefficient
training due to excessive reasoning steps, (2) disregard of the imbalanced
token entropy distribution, and (3) underutilization of token information. To
address these challenges, we propose RMT, a framework for efficient, adaptive,
and unified reinforcement mid-training with various innovative components. In
particular, we first introduce a dynamic token budget mechanism that constrains
unnecessary reasoning steps and mitigates model overthinking. Next, we design a
curriculum-based adaptive sampling method that fosters a progressive learning
trajectory from easy to hard tokens. Finally, we present a dual training
strategy that combines reinforcement learning with next-token prediction,
ensuring targeted learning on key tokens and full exploitation of all token
information. Extensive experiments demonstrate the superiority of RMT over
state-of-the-art methods, achieving up to +64.91% performance improvement with
only 21% of the reasoning length in language modeling. We also show that
checkpoints obtained after reinforcement mid-training can benefit the
subsequent post-training, yielding up to +18.76% improvement in the
mathematical domain.