Vooraf laden van redenering: De synergie tussen voorafgaande training en data na de training

Samenvatting

Het heersende paradigma voor het verbeteren van de redeneervaardigheden van LLM's draait om post-training op hoogwaardige, redeneerintensieve data. Hoewel opkomende literatuur suggereert dat redeneerdata steeds vaker ook tijdens de mid-training fase wordt geïntegreerd—een praktijk die relatief meer propriëtair en minder openlijk wordt beschreven—blijft de rol van dergelijke data in de pretraining onduidelijk. Met name vanwege de ondoorzichtigheid van pretraining corpora in de meeste frontier modellen, wordt het effect van redeneerdata die in verschillende fasen van pre- en/of post-training wordt geïntroduceerd relatief minder gerapporteerd in de wetenschappelijke literatuur. Dit roept verschillende belangrijke vragen op: Is het toevoegen van redeneerdata eerder tijdens de pretraining beter dan het introduceren ervan tijdens de post-training? Zou eerdere inclusie het risico van overfitting kunnen vergroten en de generalisatie schaden, of zou het juist duurzame fundamenten kunnen leggen die latere fine-tuning niet kan herstellen? Wij voeren de eerste systematische studie uit naar hoe redeneerdata—variërend in schaal, diversiteit en kwaliteit—de prestaties van LLM's beïnvloedt wanneer deze in verschillende fasen van de training wordt geïntroduceerd. Wij constateren dat het vooraf laden van redeneerdata in de pretraining cruciaal is (19% gemiddelde winst), waarbij fundamentele capaciteiten worden gevestigd die niet volledig kunnen worden gerepliceerd door latere SFT, zelfs niet met meer data. Wij ontdekken een asymmetrisch principe voor optimale data-allocatie: pretraining profiteert het meest van brede diversiteit in redeneerpatronen (11% gemiddelde winst), terwijl SFT gevoeliger is voor data-kwaliteit (15% gemiddelde winst). Wij tonen aan dat hoogwaardige pretraining-data latente effecten heeft, die pas na SFT worden geactiveerd, en dat het naïef opschalen van SFT-data nadelig kan zijn, waardoor de voordelen van vroege redeneerinjectie worden weggespoeld. Onze resultaten dagen de conventionele scheiding tussen taalmodellering en redeneren uit en bieden een principiële gids voor het strategisch alloceren van data over de gehele trainingspipeline om capabelere modellen te bouwen.

English

The prevailing paradigm for enhancing the reasoning abilities of LLMs revolves around post-training on high-quality, reasoning-intensive data. While emerging literature suggests that reasoning data is increasingly incorporated also during the mid-training stage-a practice that is relatively more proprietary and less openly characterized-the role of such data in pretraining remains unclear. In particular, due to the opaqueness of pretraining corpora in most frontier models, the effect of reasoning data introduced at different phases of pre- and/or post-training is relatively less reported in the scientific literature. This raises several important questions: Is adding reasoning data earlier during pretraining any better than introducing it during post-training? Could earlier inclusion risk overfitting and harm generalization, or instead establish durable foundations that later fine-tuning cannot recover? We conduct the first systematic study of how reasoning data-varying in scale, diversity, and quality-affects LLM performance when introduced at different stages of training. We find that front-loading reasoning data into pretraining is critical (19% avg gain), establishing foundational capabilities that cannot be fully replicated by later-stage SFT, even with more data. We uncover an asymmetric principle for optimal data allocation: pretraining benefits most from broad diversity in reasoning patterns (11% avg gain), while SFT is more sensitive to data quality (15% avg gain). We show that high-quality pretraining data has latent effects, activated only after SFT, and that naively scaling SFT data can be detrimental, washing away the benefits of early reasoning injection. Our results challenge the conventional separation of language modeling and reasoning, providing a principled guide for strategically allocating data across the entire training pipeline to build more capable models.

Vooraf laden van redenering: De synergie tussen voorafgaande training en data na de training

Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

Samenvatting

Support