Pré-carregamento de Raciocínio: A Sinergia entre Dados de Pré-treinamento e Pós-treinamento
Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data
September 26, 2025
Autores: Syeda Nahida Akter, Shrimai Prabhumoye, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, Yejin Choi, Bryan Catanzaro
cs.AI
Resumo
O paradigma predominante para aprimorar as habilidades de raciocínio dos LLMs (Modelos de Linguagem de Grande Escala) gira em torno do pós-treinamento com dados de alta qualidade e intensivos em raciocínio. Embora a literatura emergente sugira que os dados de raciocínio estão sendo cada vez mais incorporados também durante a fase intermediária de treinamento—uma prática que é relativamente mais proprietária e menos caracterizada abertamente—o papel desses dados no pré-treinamento permanece pouco claro. Em particular, devido à opacidade dos corpora de pré-treinamento na maioria dos modelos de ponta, o efeito dos dados de raciocínio introduzidos em diferentes fases do pré- e/ou pós-treinamento é relativamente menos relatado na literatura científica. Isso levanta várias questões importantes: Adicionar dados de raciocínio mais cedo, durante o pré-treinamento, é melhor do que introduzi-los durante o pós-treinamento? A inclusão mais cedo poderia arriscar o sobreajuste e prejudicar a generalização, ou, em vez disso, estabelecer fundamentos duradouros que o ajuste fino posterior não pode recuperar? Realizamos o primeiro estudo sistemático de como os dados de raciocínio—variando em escala, diversidade e qualidade—afetam o desempenho dos LLMs quando introduzidos em diferentes estágios do treinamento. Descobrimos que a antecipação dos dados de raciocínio no pré-treinamento é crítica (ganho médio de 19%), estabelecendo capacidades fundamentais que não podem ser totalmente replicadas pelo ajuste fino supervisionado (SFT) em estágios posteriores, mesmo com mais dados. Revelamos um princípio assimétrico para a alocação ótima de dados: o pré-treinamento se beneficia mais da ampla diversidade de padrões de raciocínio (ganho médio de 11%), enquanto o SFT é mais sensível à qualidade dos dados (ganho médio de 15%). Mostramos que os dados de pré-treinamento de alta qualidade têm efeitos latentes, ativados apenas após o SFT, e que o aumento ingênuo dos dados de SFT pode ser prejudicial, eliminando os benefícios da injeção precoce de raciocínio. Nossos resultados desafiam a separação convencional entre modelagem de linguagem e raciocínio, fornecendo um guia fundamentado para a alocação estratégica de dados em todo o pipeline de treinamento, visando a construção de modelos mais capazes.
English
The prevailing paradigm for enhancing the reasoning abilities of LLMs
revolves around post-training on high-quality, reasoning-intensive data. While
emerging literature suggests that reasoning data is increasingly incorporated
also during the mid-training stage-a practice that is relatively more
proprietary and less openly characterized-the role of such data in pretraining
remains unclear. In particular, due to the opaqueness of pretraining corpora in
most frontier models, the effect of reasoning data introduced at different
phases of pre- and/or post-training is relatively less reported in the
scientific literature. This raises several important questions: Is adding
reasoning data earlier during pretraining any better than introducing it during
post-training? Could earlier inclusion risk overfitting and harm
generalization, or instead establish durable foundations that later fine-tuning
cannot recover? We conduct the first systematic study of how reasoning
data-varying in scale, diversity, and quality-affects LLM performance when
introduced at different stages of training. We find that front-loading
reasoning data into pretraining is critical (19% avg gain), establishing
foundational capabilities that cannot be fully replicated by later-stage SFT,
even with more data. We uncover an asymmetric principle for optimal data
allocation: pretraining benefits most from broad diversity in reasoning
patterns (11% avg gain), while SFT is more sensitive to data quality (15% avg
gain). We show that high-quality pretraining data has latent effects, activated
only after SFT, and that naively scaling SFT data can be detrimental, washing
away the benefits of early reasoning injection. Our results challenge the
conventional separation of language modeling and reasoning, providing a
principled guide for strategically allocating data across the entire training
pipeline to build more capable models.