Sobre la Interacción del Preentrenamiento, el Entrenamiento Intermedio y el RL en Modelos de Lenguaje de Razonamiento
On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
December 8, 2025
Autores: Charlie Zhang, Graham Neubig, Xiang Yue
cs.AI
Resumen
Las técnicas recientes de aprendizaje por refuerzo (RL) han producido mejoras impresionantes en el razonamiento de los modelos de lenguaje, pero aún no está claro si el post-entrenamiento realmente extiende la capacidad de razonamiento de un modelo más allá de lo que adquiere durante el pre-entrenamiento. Un desafío central es la falta de control en los flujos de entrenamiento modernos: los corpus de pre-entrenamiento a gran escala son opacos, el entrenamiento intermedio a menudo está poco examinado, y los objetivos de RL interactúan de maneras complejas con conocimientos previos desconocidos. Para resolver esta ambigüedad, desarrollamos un marco experimental completamente controlado que aísla las contribuciones causales del pre-entrenamiento, el entrenamiento intermedio y el post-entrenamiento basado en RL. Nuestro enfoque emplea tareas de razonamiento sintéticas con operaciones atómicas explícitas, trazas de razonamiento paso a paso analizables y manipulación sistemática de las distribuciones de entrenamiento. Evaluamos los modelos a lo largo de dos ejes: generalización extrapolativa a composiciones más complejas y generalización contextual a través de contextos superficiales. Utilizando este marco, reconciliamos visiones contrapuestas sobre la efectividad del RL. Demostramos que: 1) El RL produce ganancias reales de capacidad (pass@128) solo cuando el pre-entrenamiento deja un margen suficiente y cuando los datos de RL se dirigen al borde de competencia del modelo, tareas en el límite que son difíciles pero aún no están fuera de su alcance. 2) La generalización contextual requiere una exposición mínima pero suficiente durante el pre-entrenamiento, tras la cual el RL puede transferirla de manera confiable. 3) El entrenamiento intermedio mejora significativamente el rendimiento con un cómputo fijo en comparación con solo usar RL, demostrando su papel central pero poco explorado en los flujos de entrenamiento. 4) Las recompensas a nivel de proceso reducen la manipulación de recompensas y mejoran la fidelidad del razonamiento. En conjunto, estos resultados aclaran la interacción entre el pre-entrenamiento, el entrenamiento intermedio y el RL, ofreciendo una base para comprender y mejorar las estrategias de entrenamiento de modelos de lenguaje para el razonamiento.
English
Recent reinforcement learning (RL) techniques have yielded impressive reasoning improvements in language models, yet it remains unclear whether post-training truly extends a model's reasoning ability beyond what it acquires during pre-training. A central challenge is the lack of control in modern training pipelines: large-scale pre-training corpora are opaque, mid-training is often underexamined, and RL objectives interact with unknown prior knowledge in complex ways. To resolve this ambiguity, we develop a fully controlled experimental framework that isolates the causal contributions of pre-training, mid-training, and RL-based post-training. Our approach employs synthetic reasoning tasks with explicit atomic operations, parseable step-by-step reasoning traces, and systematic manipulation of training distributions. We evaluate models along two axes: extrapolative generalization to more complex compositions and contextual generalization across surface contexts. Using this framework, we reconcile competing views on RL's effectiveness. We show that: 1) RL produces true capability gains (pass@128) only when pre-training leaves sufficient headroom and when RL data target the model's edge of competence, tasks at the boundary that are difficult but not yet out of reach. 2) Contextual generalization requires minimal yet sufficient pre-training exposure, after which RL can reliably transfer. 3) Mid-training significantly enhances performance under fixed compute compared with RL only, demonstrating its central but underexplored role in training pipelines. 4) Process-level rewards reduce reward hacking and improve reasoning fidelity. Together, these results clarify the interplay between pre-training, mid-training, and RL, offering a foundation for understanding and improving reasoning LM training strategies.