Ragionamento Anticipato: La Sinergia tra Dati di Pre-Addestramento e Post-Addestramento

Abstract

Il paradigma prevalente per potenziare le capacità di ragionamento dei modelli linguistici di grandi dimensioni (LLM) ruota attorno al post-addestramento su dati di alta qualità e intensivi dal punto di vista del ragionamento. Sebbene la letteratura emergente suggerisca che i dati di ragionamento vengano sempre più incorporati anche durante la fase intermedia di addestramento – una pratica relativamente più proprietaria e meno caratterizzata apertamente – il ruolo di tali dati nel pre-addestramento rimane poco chiaro. In particolare, a causa dell'opacità dei corpora di pre-addestramento nella maggior parte dei modelli all'avanguardia, l'effetto dei dati di ragionamento introdotti in diverse fasi del pre- e/o post-addestramento è relativamente meno documentato nella letteratura scientifica. Ciò solleva diverse domande importanti: l'aggiunta di dati di ragionamento in una fase precedente del pre-addestramento è più efficace rispetto alla loro introduzione durante il post-addestramento? Un'inclusione precoce potrebbe rischiare l'overfitting e danneggiare la generalizzazione, oppure stabilire basi durature che il successivo fine-tuning non potrebbe recuperare? Abbiamo condotto il primo studio sistematico su come i dati di ragionamento – variabili in scala, diversità e qualità – influenzino le prestazioni degli LLM quando introdotti in diverse fasi dell'addestramento. Abbiamo scoperto che l'inserimento anticipato dei dati di ragionamento nel pre-addestramento è cruciale (un guadagno medio del 19%), stabilendo capacità fondamentali che non possono essere pienamente replicate dal fine-tuning successivo, anche con più dati. Abbiamo individuato un principio asimmetrico per l'allocazione ottimale dei dati: il pre-addestramento trae il massimo vantaggio da una vasta diversità di modelli di ragionamento (un guadagno medio dell'11%), mentre il fine-tuning è più sensibile alla qualità dei dati (un guadagno medio del 15%). Dimostriamo che i dati di pre-addestramento di alta qualità hanno effetti latenti, attivati solo dopo il fine-tuning, e che un aumento indiscriminato dei dati per il fine-tuning può essere dannoso, annullando i benefici dell'iniezione precoce di ragionamento. I nostri risultati sfidano la separazione convenzionale tra modellazione del linguaggio e ragionamento, fornendo una guida principiata per allocare strategicamente i dati lungo l'intera pipeline di addestramento per costruire modelli più capaci.

English

The prevailing paradigm for enhancing the reasoning abilities of LLMs revolves around post-training on high-quality, reasoning-intensive data. While emerging literature suggests that reasoning data is increasingly incorporated also during the mid-training stage-a practice that is relatively more proprietary and less openly characterized-the role of such data in pretraining remains unclear. In particular, due to the opaqueness of pretraining corpora in most frontier models, the effect of reasoning data introduced at different phases of pre- and/or post-training is relatively less reported in the scientific literature. This raises several important questions: Is adding reasoning data earlier during pretraining any better than introducing it during post-training? Could earlier inclusion risk overfitting and harm generalization, or instead establish durable foundations that later fine-tuning cannot recover? We conduct the first systematic study of how reasoning data-varying in scale, diversity, and quality-affects LLM performance when introduced at different stages of training. We find that front-loading reasoning data into pretraining is critical (19% avg gain), establishing foundational capabilities that cannot be fully replicated by later-stage SFT, even with more data. We uncover an asymmetric principle for optimal data allocation: pretraining benefits most from broad diversity in reasoning patterns (11% avg gain), while SFT is more sensitive to data quality (15% avg gain). We show that high-quality pretraining data has latent effects, activated only after SFT, and that naively scaling SFT data can be detrimental, washing away the benefits of early reasoning injection. Our results challenge the conventional separation of language modeling and reasoning, providing a principled guide for strategically allocating data across the entire training pipeline to build more capable models.

Ragionamento Anticipato: La Sinergia tra Dati di Pre-Addestramento e Post-Addestramento

Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

Abstract

Support