ChatPaper.aiChatPaper

Razonamiento Anticipado: La Sinergia entre los Datos de Preentrenamiento y Postentrenamiento

Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

September 26, 2025
Autores: Syeda Nahida Akter, Shrimai Prabhumoye, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, Yejin Choi, Bryan Catanzaro
cs.AI

Resumen

El paradigma predominante para mejorar las capacidades de razonamiento de los LLM gira en torno al entrenamiento posterior con datos de alta calidad e intensivos en razonamiento. Si bien la literatura emergente sugiere que los datos de razonamiento se incorporan cada vez más también durante la etapa intermedia del entrenamiento—una práctica que es relativamente más propietaria y menos caracterizada abiertamente—el papel de dichos datos en el preentrenamiento sigue siendo poco claro. En particular, debido a la opacidad de los corpus de preentrenamiento en la mayoría de los modelos de vanguardia, el efecto de los datos de razonamiento introducidos en diferentes fases del preentrenamiento y/o postentrenamiento está relativamente menos documentado en la literatura científica. Esto plantea varias preguntas importantes: ¿Es mejor agregar datos de razonamiento durante el preentrenamiento que introducirlos durante el postentrenamiento? ¿Podría la inclusión temprana arriesgar un sobreajuste y perjudicar la generalización, o en su lugar establecer bases duraderas que el ajuste fino posterior no pueda recuperar? Realizamos el primer estudio sistemático sobre cómo los datos de razonamiento—que varían en escala, diversidad y calidad—afectan el rendimiento de los LLM cuando se introducen en diferentes etapas del entrenamiento. Descubrimos que la incorporación temprana de datos de razonamiento en el preentrenamiento es crítica (19% de ganancia promedio), estableciendo capacidades fundamentales que no pueden replicarse completamente mediante el ajuste fino supervisado (SFT) en etapas posteriores, incluso con más datos. Identificamos un principio asimétrico para la asignación óptima de datos: el preentrenamiento se beneficia más de una amplia diversidad en patrones de razonamiento (11% de ganancia promedio), mientras que el SFT es más sensible a la calidad de los datos (15% de ganancia promedio). Demostramos que los datos de preentrenamiento de alta calidad tienen efectos latentes, activados solo después del SFT, y que el escalado ingenuo de los datos de SFT puede ser perjudicial, diluyendo los beneficios de la inyección temprana de razonamiento. Nuestros resultados desafían la separación convencional entre el modelado del lenguaje y el razonamiento, proporcionando una guía fundamentada para asignar estratégicamente los datos a lo largo de todo el proceso de entrenamiento con el fin de construir modelos más capaces.
English
The prevailing paradigm for enhancing the reasoning abilities of LLMs revolves around post-training on high-quality, reasoning-intensive data. While emerging literature suggests that reasoning data is increasingly incorporated also during the mid-training stage-a practice that is relatively more proprietary and less openly characterized-the role of such data in pretraining remains unclear. In particular, due to the opaqueness of pretraining corpora in most frontier models, the effect of reasoning data introduced at different phases of pre- and/or post-training is relatively less reported in the scientific literature. This raises several important questions: Is adding reasoning data earlier during pretraining any better than introducing it during post-training? Could earlier inclusion risk overfitting and harm generalization, or instead establish durable foundations that later fine-tuning cannot recover? We conduct the first systematic study of how reasoning data-varying in scale, diversity, and quality-affects LLM performance when introduced at different stages of training. We find that front-loading reasoning data into pretraining is critical (19% avg gain), establishing foundational capabilities that cannot be fully replicated by later-stage SFT, even with more data. We uncover an asymmetric principle for optimal data allocation: pretraining benefits most from broad diversity in reasoning patterns (11% avg gain), while SFT is more sensitive to data quality (15% avg gain). We show that high-quality pretraining data has latent effects, activated only after SFT, and that naively scaling SFT data can be detrimental, washing away the benefits of early reasoning injection. Our results challenge the conventional separation of language modeling and reasoning, providing a principled guide for strategically allocating data across the entire training pipeline to build more capable models.
PDF204October 7, 2025