Raisonnement en amont : La synergie entre les données de pré-entraînement et de post-entraînement
Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data
September 26, 2025
papers.authors: Syeda Nahida Akter, Shrimai Prabhumoye, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, Yejin Choi, Bryan Catanzaro
cs.AI
papers.abstract
Le paradigme dominant pour améliorer les capacités de raisonnement des LLM (modèles de langage de grande taille) repose sur un post-entraînement avec des données de haute qualité et intensives en raisonnement. Bien que la littérature émergente suggère que les données de raisonnement soient de plus en plus intégrées également pendant l'étape intermédiaire de l'entraînement—une pratique relativement plus propriétaire et moins ouvertement caractérisée—le rôle de ces données dans le pré-entraînement reste incertain. En particulier, en raison de l'opacité des corpus de pré-entraînement dans la plupart des modèles de pointe, l'effet des données de raisonnement introduites à différentes phases du pré- et/ou post-entraînement est relativement moins documenté dans la littérature scientifique. Cela soulève plusieurs questions importantes : l'ajout de données de raisonnement plus tôt pendant le pré-entraînement est-il préférable à leur introduction pendant le post-entraînement ? Une inclusion précoce pourrait-elle risquer le surapprentissage et nuire à la généralisation, ou au contraire établir des fondations durables que l'affinage ultérieur ne pourrait pas récupérer ? Nous menons la première étude systématique sur la manière dont les données de raisonnement—variant en échelle, diversité et qualité—affectent les performances des LLM lorsqu'elles sont introduites à différentes étapes de l'entraînement. Nous constatons que l'intégration précoce des données de raisonnement dans le pré-entraînement est cruciale (gain moyen de 19 %), établissant des capacités fondamentales qui ne peuvent être pleinement reproduites par l'affinage supervisé (SFT) ultérieur, même avec davantage de données. Nous découvrons un principe asymétrique pour l'allocation optimale des données : le pré-entraînement bénéficie le plus d'une grande diversité dans les schémas de raisonnement (gain moyen de 11 %), tandis que le SFT est plus sensible à la qualité des données (gain moyen de 15 %). Nous montrons que les données de pré-entraînement de haute qualité ont des effets latents, activés uniquement après le SFT, et qu'une augmentation naïve des données de SFT peut être préjudiciable, effaçant les avantages de l'injection précoce de raisonnement. Nos résultats remettent en question la séparation conventionnelle entre la modélisation du langage et le raisonnement, fournissant un guide méthodique pour allouer stratégiquement les données tout au long du pipeline d'entraînement afin de construire des modèles plus performants.
English
The prevailing paradigm for enhancing the reasoning abilities of LLMs
revolves around post-training on high-quality, reasoning-intensive data. While
emerging literature suggests that reasoning data is increasingly incorporated
also during the mid-training stage-a practice that is relatively more
proprietary and less openly characterized-the role of such data in pretraining
remains unclear. In particular, due to the opaqueness of pretraining corpora in
most frontier models, the effect of reasoning data introduced at different
phases of pre- and/or post-training is relatively less reported in the
scientific literature. This raises several important questions: Is adding
reasoning data earlier during pretraining any better than introducing it during
post-training? Could earlier inclusion risk overfitting and harm
generalization, or instead establish durable foundations that later fine-tuning
cannot recover? We conduct the first systematic study of how reasoning
data-varying in scale, diversity, and quality-affects LLM performance when
introduced at different stages of training. We find that front-loading
reasoning data into pretraining is critical (19% avg gain), establishing
foundational capabilities that cannot be fully replicated by later-stage SFT,
even with more data. We uncover an asymmetric principle for optimal data
allocation: pretraining benefits most from broad diversity in reasoning
patterns (11% avg gain), while SFT is more sensitive to data quality (15% avg
gain). We show that high-quality pretraining data has latent effects, activated
only after SFT, and that naively scaling SFT data can be detrimental, washing
away the benefits of early reasoning injection. Our results challenge the
conventional separation of language modeling and reasoning, providing a
principled guide for strategically allocating data across the entire training
pipeline to build more capable models.