ChatPaper.aiChatPaper

ReMiT : Apprentissage Médian Guidé par RL pour l'Évolution Itérative des Modèles de Langage

ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution

February 3, 2026
Auteurs: Junjie Huang, Jiarui Qin, Di Yin, Weiwen Liu, Yong Yu, Xing Sun, Weinan Zhang
cs.AI

Résumé

Les pipelines d'entraînement standard pour les grands modèles de langage (LLM) sont généralement unidirectionnels, progressant du pré-entraînement au post-entraînement. Cependant, le potentiel d'un processus bidirectionnel – où les enseignements du post-entraînement améliorent rétroactivement le modèle de base pré-entraîné – reste inexploré. Notre objectif est d'établir un effet flywheel auto-renforçant : un cycle dans lequel un modèle ajusté par apprentissage par renforcement (RL) renforce le modèle de base, qui améliore à son tour les performances ultérieures du post-entraînement, sans nécessiter de modèle enseignant ou de référence spécialement entraîné. Pour concrétiser cela, nous analysons la dynamique d'entraînement et identifions la phase de mi-entraînement (recuit) comme un point de basculement critique pour les capacités du modèle. Cette phase se produit typiquement à la fin du pré-entraînement, utilisant des corpus de haute qualité sous un taux d'apprentissage à décroissance rapide. En nous appuyant sur cette observation, nous introduisons ReMiT (Reinforcement Learning-Guided Mid-Training). Concrètement, ReMiT exploite les prérequis de raisonnement des modèles ajustés par RL pour repondérer dynamiquement les tokens durant la phase de mi-entraînement, en priorisant ceux qui sont déterminants pour le raisonnement. Empiriquement, ReMiT obtient une amélioration moyenne de 3 % sur 10 benchmarks de pré-entraînement, couvrant les domaines mathématiques, la programmation et le raisonnement général, et maintient ces gains à plus de 2 % tout au long du pipeline de post-entraînement. Ces résultats valident une boucle de rétroaction itérative, permettant une évolution continue et auto-renforçante des LLM.
English
Standard training pipelines for large language models (LLMs) are typically unidirectional, progressing from pre-training to post-training. However, the potential for a bidirectional process--where insights from post-training retroactively improve the pre-trained foundation--remains unexplored. We aim to establish a self-reinforcing flywheel: a cycle in which reinforcement learning (RL)-tuned model strengthens the base model, which in turn enhances subsequent post-training performance, requiring no specially trained teacher or reference model. To realize this, we analyze training dynamics and identify the mid-training (annealing) phase as a critical turning point for model capabilities. This phase typically occurs at the end of pre-training, utilizing high-quality corpora under a rapidly decaying learning rate. Building upon this insight, we introduce ReMiT (Reinforcement Learning-Guided Mid-Training). Specifically, ReMiT leverages the reasoning priors of RL-tuned models to dynamically reweight tokens during the mid-training phase, prioritizing those pivotal for reasoning. Empirically, ReMiT achieves an average improvement of 3\% on 10 pre-training benchmarks, spanning math, code, and general reasoning, and sustains these gains by over 2\% throughout the post-training pipeline. These results validate an iterative feedback loop, enabling continuous and self-reinforcing evolution of LLMs.
PDF63March 16, 2026