Renforcement en Milieu d'Entraînement

papers.abstract

Le développement des modèles de langage de pointe est généralement compris comme un processus en deux étapes impliquant un pré-entraînement et un post-entraînement. Nous soulignons la nécessité d'une étape intermédiaire supplémentaire appelée renforcement en milieu d'entraînement, offrant un potentiel d'amélioration significative des performances. Dans cet article, nous définissons formellement le problème et identifions trois défis clés : (1) un entraînement inefficace dû à un nombre excessif d'étapes de raisonnement, (2) une négligence de la distribution déséquilibrée de l'entropie des tokens, et (3) une sous-utilisation des informations des tokens. Pour relever ces défis, nous proposons RMT, un cadre pour un renforcement en milieu d'entraînement efficace, adaptatif et unifié, intégrant plusieurs composants innovants. En particulier, nous introduisons d'abord un mécanisme de budget dynamique de tokens qui limite les étapes de raisonnement inutiles et atténue la surréflexion du modèle. Ensuite, nous concevons une méthode d'échantillonnage adaptatif basée sur un curriculum, favorisant une trajectoire d'apprentissage progressive des tokens faciles aux tokens difficiles. Enfin, nous présentons une stratégie d'entraînement duale combinant l'apprentissage par renforcement et la prédiction du token suivant, garantissant un apprentissage ciblé sur les tokens clés et une exploitation complète de toutes les informations des tokens. Des expériences approfondies démontrent la supériorité de RMT par rapport aux méthodes de pointe, avec une amélioration des performances allant jusqu'à +64,91 % en utilisant seulement 21 % de la longueur de raisonnement en modélisation du langage. Nous montrons également que les points de contrôle obtenus après le renforcement en milieu d'entraînement peuvent bénéficier au post-entraînement ultérieur, avec une amélioration allant jusqu'à +18,76 % dans le domaine mathématique.

English

The development of state-of-the-art large language models is commonly understood as a two-stage process involving pre-training and post-training. We point out the need for an additional intermediate stage called reinforcement mid-training with potential for strong performance gains. In this paper, we formally define the problem and identify three key challenges: (1) inefficient training due to excessive reasoning steps, (2) disregard of the imbalanced token entropy distribution, and (3) underutilization of token information. To address these challenges, we propose RMT, a framework for efficient, adaptive, and unified reinforcement mid-training with various innovative components. In particular, we first introduce a dynamic token budget mechanism that constrains unnecessary reasoning steps and mitigates model overthinking. Next, we design a curriculum-based adaptive sampling method that fosters a progressive learning trajectory from easy to hard tokens. Finally, we present a dual training strategy that combines reinforcement learning with next-token prediction, ensuring targeted learning on key tokens and full exploitation of all token information. Extensive experiments demonstrate the superiority of RMT over state-of-the-art methods, achieving up to +64.91% performance improvement with only 21% of the reasoning length in language modeling. We also show that checkpoints obtained after reinforcement mid-training can benefit the subsequent post-training, yielding up to +18.76% improvement in the mathematical domain.

Renforcement en Milieu d'Entraînement

Reinforcement Mid-Training

papers.abstract

Support