ReMiT: Entrenamiento Intermedio Guiado por RL para la Evolución Iterativa de Modelos de Lenguaje Grandes

Resumen

Los flujos estándar de entrenamiento para modelos de lenguaje a gran escala (LLM) son típicamente unidireccionales, avanzando desde el pre-entrenamiento hacia el post-entrenamiento. Sin embargo, el potencial de un proceso bidireccional—donde los conocimientos del post-entrenamiento mejoren retroactivamente la base pre-entrenada—permanece inexplorado. Nuestro objetivo es establecer un efecto flywheel de autorrefuerzo: un ciclo en el que un modelo ajustado con aprendizaje por refuerzo (RL) fortalece el modelo base, que a su vez mejora el rendimiento posterior del post-entrenamiento, sin necesidad de un modelo maestro o de referencia especialmente entrenado. Para lograr esto, analizamos la dinámica del entrenamiento e identificamos la fase de entrenamiento medio (annealing) como un punto de inflexión crítico para las capacidades del modelo. Esta fase ocurre típicamente al final del pre-entrenamiento, utilizando corpus de alta calidad bajo una tasa de aprendizaje que decae rápidamente. Basándonos en esta idea, presentamos ReMiT (Mid-Training Guiado por Aprendizaje por Refuerzo). Específicamente, ReMiT aprovecha los sesgos de razonamiento de los modelos ajustados con RL para reponderar dinámicamente los tokens durante la fase de entrenamiento medio, priorizando aquellos que son cruciales para el razonamiento. Empíricamente, ReMiT logra una mejora promedio del 3% en 10 benchmarks de pre-entrenamiento, abarcando matemáticas, código y razonamiento general, y mantiene estas ganancias en más del 2% a lo largo de todo el pipeline de post-entrenamiento. Estos resultados validan un bucle de retroalimentación iterativo, permitiendo una evolución continua y de autorrefuerzo de los LLM.

English

Standard training pipelines for large language models (LLMs) are typically unidirectional, progressing from pre-training to post-training. However, the potential for a bidirectional process--where insights from post-training retroactively improve the pre-trained foundation--remains unexplored. We aim to establish a self-reinforcing flywheel: a cycle in which reinforcement learning (RL)-tuned model strengthens the base model, which in turn enhances subsequent post-training performance, requiring no specially trained teacher or reference model. To realize this, we analyze training dynamics and identify the mid-training (annealing) phase as a critical turning point for model capabilities. This phase typically occurs at the end of pre-training, utilizing high-quality corpora under a rapidly decaying learning rate. Building upon this insight, we introduce ReMiT (Reinforcement Learning-Guided Mid-Training). Specifically, ReMiT leverages the reasoning priors of RL-tuned models to dynamically reweight tokens during the mid-training phase, prioritizing those pivotal for reasoning. Empirically, ReMiT achieves an average improvement of 3\% on 10 pre-training benchmarks, spanning math, code, and general reasoning, and sustains these gains by over 2\% throughout the post-training pipeline. These results validate an iterative feedback loop, enabling continuous and self-reinforcing evolution of LLMs.