Versterking Midden-Training
Reinforcement Mid-Training
September 29, 2025
Auteurs: Yijun Tian, Shaoyu Chen, Zhichao Xu, Yawei Wang, Jinhe Bi, Peng Han, Wei Wang
cs.AI
Samenvatting
De ontwikkeling van state-of-the-art grote taalmodelen wordt doorgaans begrepen als een tweestaps proces dat bestaat uit voorafgaande training en nabehandeling. Wij wijzen op de noodzaak van een extra tussenliggende fase, genaamd versterkende midden-training, met potentieel voor aanzienlijke prestatieverbeteringen. In dit artikel definiëren we het probleem formeel en identificeren we drie belangrijke uitdagingen: (1) inefficiënte training door overmatige redeneerstappen, (2) verwaarlozing van de ongelijke verdeling van token-entropie, en (3) onderbenutting van tokeninformatie. Om deze uitdagingen aan te pakken, stellen we RMT voor, een raamwerk voor efficiënte, adaptieve en uniforme versterkende midden-training met diverse innovatieve componenten. In het bijzonder introduceren we eerst een dynamisch tokenbudgetmechanisme dat onnodige redeneerstappen beperkt en modeloverdenken vermindert. Vervolgens ontwerpen we een curriculumgebaseerde adaptieve steekproefmethode die een progressief leertraject van eenvoudige naar moeilijke tokens bevordert. Tot slot presenteren we een dubbele trainingsstrategie die versterkend leren combineert met voorspelling van het volgende token, waardoor gericht leren op sleuteltokens en volledige benutting van alle tokeninformatie wordt gegarandeerd. Uitgebreide experimenten tonen de superioriteit van RMT aan ten opzichte van state-of-the-art methoden, met een prestatieverbetering van tot wel +64,91% met slechts 21% van de redeneerlengte bij taalmodeling. We laten ook zien dat checkpoints die zijn verkregen na versterkende midden-training de daaropvolgende nabehandeling kunnen bevorderen, wat resulteert in een verbetering van tot wel +18,76% in het wiskundige domein.
English
The development of state-of-the-art large language models is commonly
understood as a two-stage process involving pre-training and post-training. We
point out the need for an additional intermediate stage called reinforcement
mid-training with potential for strong performance gains. In this paper, we
formally define the problem and identify three key challenges: (1) inefficient
training due to excessive reasoning steps, (2) disregard of the imbalanced
token entropy distribution, and (3) underutilization of token information. To
address these challenges, we propose RMT, a framework for efficient, adaptive,
and unified reinforcement mid-training with various innovative components. In
particular, we first introduce a dynamic token budget mechanism that constrains
unnecessary reasoning steps and mitigates model overthinking. Next, we design a
curriculum-based adaptive sampling method that fosters a progressive learning
trajectory from easy to hard tokens. Finally, we present a dual training
strategy that combines reinforcement learning with next-token prediction,
ensuring targeted learning on key tokens and full exploitation of all token
information. Extensive experiments demonstrate the superiority of RMT over
state-of-the-art methods, achieving up to +64.91% performance improvement with
only 21% of the reasoning length in language modeling. We also show that
checkpoints obtained after reinforcement mid-training can benefit the
subsequent post-training, yielding up to +18.76% improvement in the
mathematical domain.