ReMiT: RL-gestuurde Mid-Training voor Iteratieve LLM-evolutie
ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution
February 3, 2026
Auteurs: Junjie Huang, Jiarui Qin, Di Yin, Weiwen Liu, Yong Yu, Xing Sun, Weinan Zhang
cs.AI
Samenvatting
Standaard trainingspijplijnen voor grote taalmodellen (LLM's) zijn typisch unidirectioneel en verlopen van voorafgaande training (pre-training) tot naftraining (post-training). Het potentieel voor een bidirectioneel proces – waarbij inzichten uit de naftraining het vooraf getrainde foundation-model retroactief verbeteren – blijft echter onontgonnen. Wij beogen een zelfversterkende vliegwiel te creëren: een cyclus waarin een via reinforcement learning (RL) afgestemd model het basismodel versterkt, wat op zijn beurt de prestaties in latere naftraining verbetert, zonder dat een speciaal getrainde leraar of referentiemodel nodig is.
Om dit te realiseren, analyseren we de trainingsdynamiek en identificeren de middenfase van de training (annealing) als een kritisch keerpunt voor modelcapaciteiten. Deze fase treedt typisch op aan het einde van de voorafgaande training, waarbij hoogwaardige corpora worden gebruikt onder een snel afnemend leertempo. Voortbouwend op dit inzicht introduceren we ReMiT (Reinforcement Learning-Guided Mid-Training). Concreet benut ReMiT de redeneerpriors van RL-afgestemde modellen om tokens dynamisch te herwegen tijdens de middenfase, waarbij prioriteit wordt gegeven aan tokens die cruciaal zijn voor redeneren.
Empirisch behaalt ReMiT een gemiddelde verbetering van 3% op 10 benchmarks voor voorafgaande training, verdeeld over wiskunde, code en algemeen redeneren, en behoudt het deze winst met meer dan 2% gedurende de gehele naftrainingspijplijn. Deze resultaten valideren een iteratieve feedbacklus, die een continue en zelfversterkende evolutie van LLM's mogelijk maakt.
English
Standard training pipelines for large language models (LLMs) are typically unidirectional, progressing from pre-training to post-training. However, the potential for a bidirectional process--where insights from post-training retroactively improve the pre-trained foundation--remains unexplored. We aim to establish a self-reinforcing flywheel: a cycle in which reinforcement learning (RL)-tuned model strengthens the base model, which in turn enhances subsequent post-training performance, requiring no specially trained teacher or reference model. To realize this, we analyze training dynamics and identify the mid-training (annealing) phase as a critical turning point for model capabilities. This phase typically occurs at the end of pre-training, utilizing high-quality corpora under a rapidly decaying learning rate. Building upon this insight, we introduce ReMiT (Reinforcement Learning-Guided Mid-Training). Specifically, ReMiT leverages the reasoning priors of RL-tuned models to dynamically reweight tokens during the mid-training phase, prioritizing those pivotal for reasoning. Empirically, ReMiT achieves an average improvement of 3\% on 10 pre-training benchmarks, spanning math, code, and general reasoning, and sustains these gains by over 2\% throughout the post-training pipeline. These results validate an iterative feedback loop, enabling continuous and self-reinforcing evolution of LLMs.