Razonamiento Anticipado: La Sinergia entre los Datos de Preentrenamiento y Postentrenamiento
Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data
September 26, 2025
Autores: Syeda Nahida Akter, Shrimai Prabhumoye, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, Yejin Choi, Bryan Catanzaro
cs.AI
Resumen
El paradigma predominante para mejorar las capacidades de razonamiento de los LLM gira en torno al entrenamiento posterior con datos de alta calidad e intensivos en razonamiento. Si bien la literatura emergente sugiere que los datos de razonamiento se incorporan cada vez más también durante la etapa intermedia del entrenamiento—una práctica que es relativamente más propietaria y menos caracterizada abiertamente—el papel de dichos datos en el preentrenamiento sigue siendo poco claro. En particular, debido a la opacidad de los corpus de preentrenamiento en la mayoría de los modelos de vanguardia, el efecto de los datos de razonamiento introducidos en diferentes fases del preentrenamiento y/o postentrenamiento está relativamente menos documentado en la literatura científica. Esto plantea varias preguntas importantes: ¿Es mejor agregar datos de razonamiento durante el preentrenamiento que introducirlos durante el postentrenamiento? ¿Podría la inclusión temprana arriesgar un sobreajuste y perjudicar la generalización, o en su lugar establecer bases duraderas que el ajuste fino posterior no pueda recuperar? Realizamos el primer estudio sistemático sobre cómo los datos de razonamiento—que varían en escala, diversidad y calidad—afectan el rendimiento de los LLM cuando se introducen en diferentes etapas del entrenamiento. Descubrimos que la incorporación temprana de datos de razonamiento en el preentrenamiento es crítica (19% de ganancia promedio), estableciendo capacidades fundamentales que no pueden replicarse completamente mediante el ajuste fino supervisado (SFT) en etapas posteriores, incluso con más datos. Identificamos un principio asimétrico para la asignación óptima de datos: el preentrenamiento se beneficia más de una amplia diversidad en patrones de razonamiento (11% de ganancia promedio), mientras que el SFT es más sensible a la calidad de los datos (15% de ganancia promedio). Demostramos que los datos de preentrenamiento de alta calidad tienen efectos latentes, activados solo después del SFT, y que el escalado ingenuo de los datos de SFT puede ser perjudicial, diluyendo los beneficios de la inyección temprana de razonamiento. Nuestros resultados desafían la separación convencional entre el modelado del lenguaje y el razonamiento, proporcionando una guía fundamentada para asignar estratégicamente los datos a lo largo de todo el proceso de entrenamiento con el fin de construir modelos más capaces.
English
The prevailing paradigm for enhancing the reasoning abilities of LLMs
revolves around post-training on high-quality, reasoning-intensive data. While
emerging literature suggests that reasoning data is increasingly incorporated
also during the mid-training stage-a practice that is relatively more
proprietary and less openly characterized-the role of such data in pretraining
remains unclear. In particular, due to the opaqueness of pretraining corpora in
most frontier models, the effect of reasoning data introduced at different
phases of pre- and/or post-training is relatively less reported in the
scientific literature. This raises several important questions: Is adding
reasoning data earlier during pretraining any better than introducing it during
post-training? Could earlier inclusion risk overfitting and harm
generalization, or instead establish durable foundations that later fine-tuning
cannot recover? We conduct the first systematic study of how reasoning
data-varying in scale, diversity, and quality-affects LLM performance when
introduced at different stages of training. We find that front-loading
reasoning data into pretraining is critical (19% avg gain), establishing
foundational capabilities that cannot be fully replicated by later-stage SFT,
even with more data. We uncover an asymmetric principle for optimal data
allocation: pretraining benefits most from broad diversity in reasoning
patterns (11% avg gain), while SFT is more sensitive to data quality (15% avg
gain). We show that high-quality pretraining data has latent effects, activated
only after SFT, and that naively scaling SFT data can be detrimental, washing
away the benefits of early reasoning injection. Our results challenge the
conventional separation of language modeling and reasoning, providing a
principled guide for strategically allocating data across the entire training
pipeline to build more capable models.