Refuerzo a Mitad del Entrenamiento
Reinforcement Mid-Training
September 29, 2025
Autores: Yijun Tian, Shaoyu Chen, Zhichao Xu, Yawei Wang, Jinhe Bi, Peng Han, Wei Wang
cs.AI
Resumen
El desarrollo de modelos de lenguaje avanzados de última generación se entiende comúnmente como un proceso de dos etapas que involucra preentrenamiento y posentrenamiento. Señalamos la necesidad de una etapa intermedia adicional llamada entrenamiento intermedio de refuerzo, con potencial para obtener importantes mejoras en el rendimiento. En este artículo, definimos formalmente el problema e identificamos tres desafíos clave: (1) entrenamiento ineficiente debido a pasos de razonamiento excesivos, (2) desconsideración de la distribución desequilibrada de entropía de tokens, y (3) subutilización de la información de los tokens. Para abordar estos desafíos, proponemos RMT, un marco para un entrenamiento intermedio de refuerzo eficiente, adaptativo y unificado, con varios componentes innovadores. En particular, primero introducimos un mecanismo de presupuesto dinámico de tokens que limita pasos de razonamiento innecesarios y mitiga el sobrepensamiento del modelo. Luego, diseñamos un método de muestreo adaptativo basado en currículo que fomenta una trayectoria de aprendizaje progresiva, desde tokens fáciles hasta difíciles. Finalmente, presentamos una estrategia de entrenamiento dual que combina el aprendizaje por refuerzo con la predicción del siguiente token, asegurando un aprendizaje dirigido en tokens clave y la explotación completa de toda la información de los tokens. Experimentos extensos demuestran la superioridad de RMT sobre los métodos más avanzados, logrando una mejora de rendimiento de hasta +64,91% con solo el 21% de la longitud de razonamiento en modelado de lenguaje. También mostramos que los puntos de control obtenidos después del entrenamiento intermedio de refuerzo pueden beneficiar el posentrenamiento posterior, obteniendo una mejora de hasta +18,76% en el dominio matemático.
English
The development of state-of-the-art large language models is commonly
understood as a two-stage process involving pre-training and post-training. We
point out the need for an additional intermediate stage called reinforcement
mid-training with potential for strong performance gains. In this paper, we
formally define the problem and identify three key challenges: (1) inefficient
training due to excessive reasoning steps, (2) disregard of the imbalanced
token entropy distribution, and (3) underutilization of token information. To
address these challenges, we propose RMT, a framework for efficient, adaptive,
and unified reinforcement mid-training with various innovative components. In
particular, we first introduce a dynamic token budget mechanism that constrains
unnecessary reasoning steps and mitigates model overthinking. Next, we design a
curriculum-based adaptive sampling method that fosters a progressive learning
trajectory from easy to hard tokens. Finally, we present a dual training
strategy that combines reinforcement learning with next-token prediction,
ensuring targeted learning on key tokens and full exploitation of all token
information. Extensive experiments demonstrate the superiority of RMT over
state-of-the-art methods, achieving up to +64.91% performance improvement with
only 21% of the reasoning length in language modeling. We also show that
checkpoints obtained after reinforcement mid-training can benefit the
subsequent post-training, yielding up to +18.76% improvement in the
mathematical domain.