Vooraf laden van redenering: De synergie tussen voorafgaande training en data na de training
Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data
September 26, 2025
Auteurs: Syeda Nahida Akter, Shrimai Prabhumoye, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, Yejin Choi, Bryan Catanzaro
cs.AI
Samenvatting
Het heersende paradigma voor het verbeteren van de redeneervaardigheden van LLM's draait om post-training op hoogwaardige, redeneerintensieve data. Hoewel opkomende literatuur suggereert dat redeneerdata steeds vaker ook tijdens de mid-training fase wordt geïntegreerd—een praktijk die relatief meer propriëtair en minder openlijk wordt beschreven—blijft de rol van dergelijke data in de pretraining onduidelijk. Met name vanwege de ondoorzichtigheid van pretraining corpora in de meeste frontier modellen, wordt het effect van redeneerdata die in verschillende fasen van pre- en/of post-training wordt geïntroduceerd relatief minder gerapporteerd in de wetenschappelijke literatuur. Dit roept verschillende belangrijke vragen op: Is het toevoegen van redeneerdata eerder tijdens de pretraining beter dan het introduceren ervan tijdens de post-training? Zou eerdere inclusie het risico van overfitting kunnen vergroten en de generalisatie schaden, of zou het juist duurzame fundamenten kunnen leggen die latere fine-tuning niet kan herstellen? Wij voeren de eerste systematische studie uit naar hoe redeneerdata—variërend in schaal, diversiteit en kwaliteit—de prestaties van LLM's beïnvloedt wanneer deze in verschillende fasen van de training wordt geïntroduceerd. Wij constateren dat het vooraf laden van redeneerdata in de pretraining cruciaal is (19% gemiddelde winst), waarbij fundamentele capaciteiten worden gevestigd die niet volledig kunnen worden gerepliceerd door latere SFT, zelfs niet met meer data. Wij ontdekken een asymmetrisch principe voor optimale data-allocatie: pretraining profiteert het meest van brede diversiteit in redeneerpatronen (11% gemiddelde winst), terwijl SFT gevoeliger is voor data-kwaliteit (15% gemiddelde winst). Wij tonen aan dat hoogwaardige pretraining-data latente effecten heeft, die pas na SFT worden geactiveerd, en dat het naïef opschalen van SFT-data nadelig kan zijn, waardoor de voordelen van vroege redeneerinjectie worden weggespoeld. Onze resultaten dagen de conventionele scheiding tussen taalmodellering en redeneren uit en bieden een principiële gids voor het strategisch alloceren van data over de gehele trainingspipeline om capabelere modellen te bouwen.
English
The prevailing paradigm for enhancing the reasoning abilities of LLMs
revolves around post-training on high-quality, reasoning-intensive data. While
emerging literature suggests that reasoning data is increasingly incorporated
also during the mid-training stage-a practice that is relatively more
proprietary and less openly characterized-the role of such data in pretraining
remains unclear. In particular, due to the opaqueness of pretraining corpora in
most frontier models, the effect of reasoning data introduced at different
phases of pre- and/or post-training is relatively less reported in the
scientific literature. This raises several important questions: Is adding
reasoning data earlier during pretraining any better than introducing it during
post-training? Could earlier inclusion risk overfitting and harm
generalization, or instead establish durable foundations that later fine-tuning
cannot recover? We conduct the first systematic study of how reasoning
data-varying in scale, diversity, and quality-affects LLM performance when
introduced at different stages of training. We find that front-loading
reasoning data into pretraining is critical (19% avg gain), establishing
foundational capabilities that cannot be fully replicated by later-stage SFT,
even with more data. We uncover an asymmetric principle for optimal data
allocation: pretraining benefits most from broad diversity in reasoning
patterns (11% avg gain), while SFT is more sensitive to data quality (15% avg
gain). We show that high-quality pretraining data has latent effects, activated
only after SFT, and that naively scaling SFT data can be detrimental, washing
away the benefits of early reasoning injection. Our results challenge the
conventional separation of language modeling and reasoning, providing a
principled guide for strategically allocating data across the entire training
pipeline to build more capable models.