ChatPaper.aiChatPaper

Pré-carregamento de Raciocínio: A Sinergia entre Dados de Pré-treinamento e Pós-treinamento

Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

September 26, 2025
Autores: Syeda Nahida Akter, Shrimai Prabhumoye, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, Yejin Choi, Bryan Catanzaro
cs.AI

Resumo

O paradigma predominante para aprimorar as habilidades de raciocínio dos LLMs (Modelos de Linguagem de Grande Escala) gira em torno do pós-treinamento com dados de alta qualidade e intensivos em raciocínio. Embora a literatura emergente sugira que os dados de raciocínio estão sendo cada vez mais incorporados também durante a fase intermediária de treinamento—uma prática que é relativamente mais proprietária e menos caracterizada abertamente—o papel desses dados no pré-treinamento permanece pouco claro. Em particular, devido à opacidade dos corpora de pré-treinamento na maioria dos modelos de ponta, o efeito dos dados de raciocínio introduzidos em diferentes fases do pré- e/ou pós-treinamento é relativamente menos relatado na literatura científica. Isso levanta várias questões importantes: Adicionar dados de raciocínio mais cedo, durante o pré-treinamento, é melhor do que introduzi-los durante o pós-treinamento? A inclusão mais cedo poderia arriscar o sobreajuste e prejudicar a generalização, ou, em vez disso, estabelecer fundamentos duradouros que o ajuste fino posterior não pode recuperar? Realizamos o primeiro estudo sistemático de como os dados de raciocínio—variando em escala, diversidade e qualidade—afetam o desempenho dos LLMs quando introduzidos em diferentes estágios do treinamento. Descobrimos que a antecipação dos dados de raciocínio no pré-treinamento é crítica (ganho médio de 19%), estabelecendo capacidades fundamentais que não podem ser totalmente replicadas pelo ajuste fino supervisionado (SFT) em estágios posteriores, mesmo com mais dados. Revelamos um princípio assimétrico para a alocação ótima de dados: o pré-treinamento se beneficia mais da ampla diversidade de padrões de raciocínio (ganho médio de 11%), enquanto o SFT é mais sensível à qualidade dos dados (ganho médio de 15%). Mostramos que os dados de pré-treinamento de alta qualidade têm efeitos latentes, ativados apenas após o SFT, e que o aumento ingênuo dos dados de SFT pode ser prejudicial, eliminando os benefícios da injeção precoce de raciocínio. Nossos resultados desafiam a separação convencional entre modelagem de linguagem e raciocínio, fornecendo um guia fundamentado para a alocação estratégica de dados em todo o pipeline de treinamento, visando a construção de modelos mais capazes.
English
The prevailing paradigm for enhancing the reasoning abilities of LLMs revolves around post-training on high-quality, reasoning-intensive data. While emerging literature suggests that reasoning data is increasingly incorporated also during the mid-training stage-a practice that is relatively more proprietary and less openly characterized-the role of such data in pretraining remains unclear. In particular, due to the opaqueness of pretraining corpora in most frontier models, the effect of reasoning data introduced at different phases of pre- and/or post-training is relatively less reported in the scientific literature. This raises several important questions: Is adding reasoning data earlier during pretraining any better than introducing it during post-training? Could earlier inclusion risk overfitting and harm generalization, or instead establish durable foundations that later fine-tuning cannot recover? We conduct the first systematic study of how reasoning data-varying in scale, diversity, and quality-affects LLM performance when introduced at different stages of training. We find that front-loading reasoning data into pretraining is critical (19% avg gain), establishing foundational capabilities that cannot be fully replicated by later-stage SFT, even with more data. We uncover an asymmetric principle for optimal data allocation: pretraining benefits most from broad diversity in reasoning patterns (11% avg gain), while SFT is more sensitive to data quality (15% avg gain). We show that high-quality pretraining data has latent effects, activated only after SFT, and that naively scaling SFT data can be detrimental, washing away the benefits of early reasoning injection. Our results challenge the conventional separation of language modeling and reasoning, providing a principled guide for strategically allocating data across the entire training pipeline to build more capable models.
PDF234October 7, 2025