ReMiT : Apprentissage Médian Guidé par RL pour l'Évolution Itérative des Modèles de Langage

Résumé

Les pipelines d'entraînement standard pour les grands modèles de langage (LLM) sont généralement unidirectionnels, progressant du pré-entraînement au post-entraînement. Cependant, le potentiel d'un processus bidirectionnel – où les enseignements du post-entraînement améliorent rétroactivement le modèle de base pré-entraîné – reste inexploré. Notre objectif est d'établir un effet flywheel auto-renforçant : un cycle dans lequel un modèle ajusté par apprentissage par renforcement (RL) renforce le modèle de base, qui améliore à son tour les performances ultérieures du post-entraînement, sans nécessiter de modèle enseignant ou de référence spécialement entraîné. Pour concrétiser cela, nous analysons la dynamique d'entraînement et identifions la phase de mi-entraînement (recuit) comme un point de basculement critique pour les capacités du modèle. Cette phase se produit typiquement à la fin du pré-entraînement, utilisant des corpus de haute qualité sous un taux d'apprentissage à décroissance rapide. En nous appuyant sur cette observation, nous introduisons ReMiT (Reinforcement Learning-Guided Mid-Training). Concrètement, ReMiT exploite les prérequis de raisonnement des modèles ajustés par RL pour repondérer dynamiquement les tokens durant la phase de mi-entraînement, en priorisant ceux qui sont déterminants pour le raisonnement. Empiriquement, ReMiT obtient une amélioration moyenne de 3 % sur 10 benchmarks de pré-entraînement, couvrant les domaines mathématiques, la programmation et le raisonnement général, et maintient ces gains à plus de 2 % tout au long du pipeline de post-entraînement. Ces résultats valident une boucle de rétroaction itérative, permettant une évolution continue et auto-renforçante des LLM.

English

Standard training pipelines for large language models (LLMs) are typically unidirectional, progressing from pre-training to post-training. However, the potential for a bidirectional process--where insights from post-training retroactively improve the pre-trained foundation--remains unexplored. We aim to establish a self-reinforcing flywheel: a cycle in which reinforcement learning (RL)-tuned model strengthens the base model, which in turn enhances subsequent post-training performance, requiring no specially trained teacher or reference model. To realize this, we analyze training dynamics and identify the mid-training (annealing) phase as a critical turning point for model capabilities. This phase typically occurs at the end of pre-training, utilizing high-quality corpora under a rapidly decaying learning rate. Building upon this insight, we introduce ReMiT (Reinforcement Learning-Guided Mid-Training). Specifically, ReMiT leverages the reasoning priors of RL-tuned models to dynamically reweight tokens during the mid-training phase, prioritizing those pivotal for reasoning. Empirically, ReMiT achieves an average improvement of 3\% on 10 pre-training benchmarks, spanning math, code, and general reasoning, and sustains these gains by over 2\% throughout the post-training pipeline. These results validate an iterative feedback loop, enabling continuous and self-reinforcing evolution of LLMs.

ReMiT : Apprentissage Médian Guidé par RL pour l'Évolution Itérative des Modèles de Langage

ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution

Résumé

Support