Refuerzo a Mitad del Entrenamiento

Resumen

El desarrollo de modelos de lenguaje avanzados de última generación se entiende comúnmente como un proceso de dos etapas que involucra preentrenamiento y posentrenamiento. Señalamos la necesidad de una etapa intermedia adicional llamada entrenamiento intermedio de refuerzo, con potencial para obtener importantes mejoras en el rendimiento. En este artículo, definimos formalmente el problema e identificamos tres desafíos clave: (1) entrenamiento ineficiente debido a pasos de razonamiento excesivos, (2) desconsideración de la distribución desequilibrada de entropía de tokens, y (3) subutilización de la información de los tokens. Para abordar estos desafíos, proponemos RMT, un marco para un entrenamiento intermedio de refuerzo eficiente, adaptativo y unificado, con varios componentes innovadores. En particular, primero introducimos un mecanismo de presupuesto dinámico de tokens que limita pasos de razonamiento innecesarios y mitiga el sobrepensamiento del modelo. Luego, diseñamos un método de muestreo adaptativo basado en currículo que fomenta una trayectoria de aprendizaje progresiva, desde tokens fáciles hasta difíciles. Finalmente, presentamos una estrategia de entrenamiento dual que combina el aprendizaje por refuerzo con la predicción del siguiente token, asegurando un aprendizaje dirigido en tokens clave y la explotación completa de toda la información de los tokens. Experimentos extensos demuestran la superioridad de RMT sobre los métodos más avanzados, logrando una mejora de rendimiento de hasta +64,91% con solo el 21% de la longitud de razonamiento en modelado de lenguaje. También mostramos que los puntos de control obtenidos después del entrenamiento intermedio de refuerzo pueden beneficiar el posentrenamiento posterior, obteniendo una mejora de hasta +18,76% en el dominio matemático.

English

The development of state-of-the-art large language models is commonly understood as a two-stage process involving pre-training and post-training. We point out the need for an additional intermediate stage called reinforcement mid-training with potential for strong performance gains. In this paper, we formally define the problem and identify three key challenges: (1) inefficient training due to excessive reasoning steps, (2) disregard of the imbalanced token entropy distribution, and (3) underutilization of token information. To address these challenges, we propose RMT, a framework for efficient, adaptive, and unified reinforcement mid-training with various innovative components. In particular, we first introduce a dynamic token budget mechanism that constrains unnecessary reasoning steps and mitigates model overthinking. Next, we design a curriculum-based adaptive sampling method that fosters a progressive learning trajectory from easy to hard tokens. Finally, we present a dual training strategy that combines reinforcement learning with next-token prediction, ensuring targeted learning on key tokens and full exploitation of all token information. Extensive experiments demonstrate the superiority of RMT over state-of-the-art methods, achieving up to +64.91% performance improvement with only 21% of the reasoning length in language modeling. We also show that checkpoints obtained after reinforcement mid-training can benefit the subsequent post-training, yielding up to +18.76% improvement in the mathematical domain.

Refuerzo a Mitad del Entrenamiento

Reinforcement Mid-Training

Resumen

Support