Ragionamento Anticipato: La Sinergia tra Dati di Pre-Addestramento e Post-Addestramento
Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data
September 26, 2025
Autori: Syeda Nahida Akter, Shrimai Prabhumoye, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, Yejin Choi, Bryan Catanzaro
cs.AI
Abstract
Il paradigma prevalente per potenziare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) ruota attorno al post-addestramento su dati di alta qualità e intensivi dal punto di vista del ragionamento. Sebbene la letteratura emergente suggerisca che i dati di ragionamento vengano sempre più incorporati anche durante la fase intermedia di addestramento – una pratica relativamente più proprietaria e meno caratterizzata apertamente – il ruolo di tali dati nel pre-addestramento rimane poco chiaro. In particolare, a causa dell'opacità dei corpora di pre-addestramento nella maggior parte dei modelli all'avanguardia, l'effetto dei dati di ragionamento introdotti in diverse fasi del pre- e/o post-addestramento è relativamente meno documentato nella letteratura scientifica. Ciò solleva diverse domande importanti: l'aggiunta di dati di ragionamento in una fase precedente del pre-addestramento è più efficace rispetto alla loro introduzione durante il post-addestramento? Un'inclusione precoce potrebbe rischiare l'overfitting e danneggiare la generalizzazione, oppure stabilire basi durature che il successivo fine-tuning non potrebbe recuperare? Abbiamo condotto il primo studio sistematico su come i dati di ragionamento – variabili in scala, diversità e qualità – influenzino le prestazioni degli LLM quando introdotti in diverse fasi dell'addestramento. Abbiamo scoperto che l'inserimento anticipato dei dati di ragionamento nel pre-addestramento è cruciale (un guadagno medio del 19%), stabilendo capacità fondamentali che non possono essere pienamente replicate dal fine-tuning successivo, anche con più dati. Abbiamo individuato un principio asimmetrico per l'allocazione ottimale dei dati: il pre-addestramento trae il massimo vantaggio da una vasta diversità di modelli di ragionamento (un guadagno medio dell'11%), mentre il fine-tuning è più sensibile alla qualità dei dati (un guadagno medio del 15%). Dimostriamo che i dati di pre-addestramento di alta qualità hanno effetti latenti, attivati solo dopo il fine-tuning, e che un aumento indiscriminato dei dati per il fine-tuning può essere dannoso, annullando i benefici dell'iniezione precoce di ragionamento. I nostri risultati sfidano la separazione convenzionale tra modellazione del linguaggio e ragionamento, fornendo una guida principiata per allocare strategicamente i dati lungo l'intera pipeline di addestramento per costruire modelli più capaci.
English
The prevailing paradigm for enhancing the reasoning abilities of LLMs
revolves around post-training on high-quality, reasoning-intensive data. While
emerging literature suggests that reasoning data is increasingly incorporated
also during the mid-training stage-a practice that is relatively more
proprietary and less openly characterized-the role of such data in pretraining
remains unclear. In particular, due to the opaqueness of pretraining corpora in
most frontier models, the effect of reasoning data introduced at different
phases of pre- and/or post-training is relatively less reported in the
scientific literature. This raises several important questions: Is adding
reasoning data earlier during pretraining any better than introducing it during
post-training? Could earlier inclusion risk overfitting and harm
generalization, or instead establish durable foundations that later fine-tuning
cannot recover? We conduct the first systematic study of how reasoning
data-varying in scale, diversity, and quality-affects LLM performance when
introduced at different stages of training. We find that front-loading
reasoning data into pretraining is critical (19% avg gain), establishing
foundational capabilities that cannot be fully replicated by later-stage SFT,
even with more data. We uncover an asymmetric principle for optimal data
allocation: pretraining benefits most from broad diversity in reasoning
patterns (11% avg gain), while SFT is more sensitive to data quality (15% avg
gain). We show that high-quality pretraining data has latent effects, activated
only after SFT, and that naively scaling SFT data can be detrimental, washing
away the benefits of early reasoning injection. Our results challenge the
conventional separation of language modeling and reasoning, providing a
principled guide for strategically allocating data across the entire training
pipeline to build more capable models.