Renforcement en Milieu d'Entraînement
Reinforcement Mid-Training
September 29, 2025
papers.authors: Yijun Tian, Shaoyu Chen, Zhichao Xu, Yawei Wang, Jinhe Bi, Peng Han, Wei Wang
cs.AI
papers.abstract
Le développement des modèles de langage de pointe est généralement compris comme un processus en deux étapes impliquant un pré-entraînement et un post-entraînement. Nous soulignons la nécessité d'une étape intermédiaire supplémentaire appelée renforcement en milieu d'entraînement, offrant un potentiel d'amélioration significative des performances. Dans cet article, nous définissons formellement le problème et identifions trois défis clés : (1) un entraînement inefficace dû à un nombre excessif d'étapes de raisonnement, (2) une négligence de la distribution déséquilibrée de l'entropie des tokens, et (3) une sous-utilisation des informations des tokens. Pour relever ces défis, nous proposons RMT, un cadre pour un renforcement en milieu d'entraînement efficace, adaptatif et unifié, intégrant plusieurs composants innovants. En particulier, nous introduisons d'abord un mécanisme de budget dynamique de tokens qui limite les étapes de raisonnement inutiles et atténue la surréflexion du modèle. Ensuite, nous concevons une méthode d'échantillonnage adaptatif basée sur un curriculum, favorisant une trajectoire d'apprentissage progressive des tokens faciles aux tokens difficiles. Enfin, nous présentons une stratégie d'entraînement duale combinant l'apprentissage par renforcement et la prédiction du token suivant, garantissant un apprentissage ciblé sur les tokens clés et une exploitation complète de toutes les informations des tokens. Des expériences approfondies démontrent la supériorité de RMT par rapport aux méthodes de pointe, avec une amélioration des performances allant jusqu'à +64,91 % en utilisant seulement 21 % de la longueur de raisonnement en modélisation du langage. Nous montrons également que les points de contrôle obtenus après le renforcement en milieu d'entraînement peuvent bénéficier au post-entraînement ultérieur, avec une amélioration allant jusqu'à +18,76 % dans le domaine mathématique.
English
The development of state-of-the-art large language models is commonly
understood as a two-stage process involving pre-training and post-training. We
point out the need for an additional intermediate stage called reinforcement
mid-training with potential for strong performance gains. In this paper, we
formally define the problem and identify three key challenges: (1) inefficient
training due to excessive reasoning steps, (2) disregard of the imbalanced
token entropy distribution, and (3) underutilization of token information. To
address these challenges, we propose RMT, a framework for efficient, adaptive,
and unified reinforcement mid-training with various innovative components. In
particular, we first introduce a dynamic token budget mechanism that constrains
unnecessary reasoning steps and mitigates model overthinking. Next, we design a
curriculum-based adaptive sampling method that fosters a progressive learning
trajectory from easy to hard tokens. Finally, we present a dual training
strategy that combines reinforcement learning with next-token prediction,
ensuring targeted learning on key tokens and full exploitation of all token
information. Extensive experiments demonstrate the superiority of RMT over
state-of-the-art methods, achieving up to +64.91% performance improvement with
only 21% of the reasoning length in language modeling. We also show that
checkpoints obtained after reinforcement mid-training can benefit the
subsequent post-training, yielding up to +18.76% improvement in the
mathematical domain.