ReMiT: RL-gesteuerte Mid-Training für iterative LLM-Entwicklung

Zusammenfassung

Standardmäßige Trainingsabläufe für große Sprachmodelle (LLMs) sind typischerweise unidirektional und verlaufen von Pre-Training zu Post-Training. Das Potenzial eines bidirektionalen Prozesses – bei dem Erkenntnisse aus dem Post-Training rückwirkend das vortrainierte Basismodell verbessern – bleibt jedoch unerforscht. Unser Ziel ist es, eine sich selbst verstärkende Feedbackschleife (Flywheel) zu etablieren: einen Kreislauf, in dem ein durch Reinforcement Learning (RL) optimiertes Modell das Basismodell stärkt, was wiederum die nachfolgende Post-Training-Leistung verbessert, ohne dass speziell trainierte Lehrer- oder Referenzmodelle erforderlich sind. Um dies zu realisieren, analysieren wir die Trainingsdynamik und identifizieren die Mid-Training-Phase (Annealing) als kritischen Wendepunkt für die Modellfähigkeiten. Diese Phase tritt typischerweise gegen Ende des Pre-Trainings auf und nutzt hochwertige Korpora unter einer schnell abfallenden Lernrate. Aufbauend auf dieser Erkenntnis führen wir ReMiT (Reinforcement Learning-Guided Mid-Training) ein. Konkret nutzt ReMiT die Reasoning-Priors von RL-optimierten Modellen, um Tokens während der Mid-Training-Phase dynamisch neu zu gewichten, wobei solche priorisiert werden, die für das logische Schließen entscheidend sind. Empirisch erzielt ReMiT eine durchschnittliche Verbesserung von 3 % auf 10 Pre-Training-Benchmarks in den Bereichen Mathematik, Code und allgemeinem Reasoning und hält diesen Leistungszuwachs von über 2 % throughout den gesamten Post-Training-Prozess aufrecht. Diese Ergebnisse validieren eine iterative Feedbackschleife, die eine kontinuierliche und sich selbst verstärkende Evolution von LLMs ermöglicht.

English

Standard training pipelines for large language models (LLMs) are typically unidirectional, progressing from pre-training to post-training. However, the potential for a bidirectional process--where insights from post-training retroactively improve the pre-trained foundation--remains unexplored. We aim to establish a self-reinforcing flywheel: a cycle in which reinforcement learning (RL)-tuned model strengthens the base model, which in turn enhances subsequent post-training performance, requiring no specially trained teacher or reference model. To realize this, we analyze training dynamics and identify the mid-training (annealing) phase as a critical turning point for model capabilities. This phase typically occurs at the end of pre-training, utilizing high-quality corpora under a rapidly decaying learning rate. Building upon this insight, we introduce ReMiT (Reinforcement Learning-Guided Mid-Training). Specifically, ReMiT leverages the reasoning priors of RL-tuned models to dynamically reweight tokens during the mid-training phase, prioritizing those pivotal for reasoning. Empirically, ReMiT achieves an average improvement of 3\% on 10 pre-training benchmarks, spanning math, code, and general reasoning, and sustains these gains by over 2\% throughout the post-training pipeline. These results validate an iterative feedback loop, enabling continuous and self-reinforcing evolution of LLMs.

ReMiT: RL-gesteuerte Mid-Training für iterative LLM-Entwicklung

ReMiT: RL-Guided Mid-Training for Iterative LLM Evolution

Zusammenfassung

Support