ChatPaper.aiChatPaper

Front-Loading Reasoning: Die Synergie zwischen Vor- und Nachtrainingsdaten

Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

September 26, 2025
papers.authors: Syeda Nahida Akter, Shrimai Prabhumoye, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, Yejin Choi, Bryan Catanzaro
cs.AI

papers.abstract

Das vorherrschende Paradigma zur Verbesserung der Fähigkeiten von Large Language Models (LLMs) im Bereich des logischen Denkens dreht sich um das Nachträgliche Training mit hochwertigen, denkintensiven Daten. Während neuere Literatur darauf hindeutet, dass Denkdaten zunehmend auch während des mittleren Trainingsstadiums einbezogen werden – eine Praxis, die eher proprietär und weniger offen charakterisiert ist – bleibt die Rolle solcher Daten im Pretraining unklar. Insbesondere aufgrund der Undurchsichtigkeit der Pretraining-Korpora in den meisten fortschrittlichen Modellen wird die Wirkung von Denkdaten, die in verschiedenen Phasen des Pre- und/oder Posttrainings eingeführt werden, in der wissenschaftlichen Literatur relativ wenig berichtet. Dies wirft mehrere wichtige Fragen auf: Ist die frühere Einführung von Denkdaten während des Pretrainings besser als die Einführung während des Posttrainings? Könnte eine frühere Einbindung das Risiko von Überanpassung erhöhen und die Generalisierung beeinträchtigen, oder stattdessen dauerhafte Grundlagen schaffen, die späteres Feintuning nicht wiederherstellen kann? Wir führen die erste systematische Studie durch, wie Denkdaten – variierend in Umfang, Vielfalt und Qualität – die Leistung von LLMs beeinflussen, wenn sie in verschiedenen Trainingsphasen eingeführt werden. Wir stellen fest, dass die frühzeitige Einbindung von Denkdaten in das Pretraining entscheidend ist (durchschnittlich 19 % Gewinn), da sie grundlegende Fähigkeiten etabliert, die durch späteres Supervised Fine-Tuning (SFT) nicht vollständig repliziert werden können, selbst mit mehr Daten. Wir entdecken ein asymmetrisches Prinzip für die optimale Datenverteilung: Das Pretraining profitiert am meisten von einer breiten Vielfalt an Denkmustern (durchschnittlich 11 % Gewinn), während SFT empfindlicher auf die Datenqualität reagiert (durchschnittlich 15 % Gewinn). Wir zeigen, dass hochwertige Pretraining-Daten latente Effekte haben, die erst nach dem SFT aktiviert werden, und dass eine naive Skalierung der SFT-Daten nachteilig sein kann, da sie die Vorteile der frühen Einbindung von Denkdaten zunichtemacht. Unsere Ergebnisse stellen die konventionelle Trennung von Sprachmodellierung und logischem Denken in Frage und bieten einen prinzipiellen Leitfaden für die strategische Verteilung von Daten über die gesamte Trainingspipeline hinweg, um leistungsfähigere Modelle zu entwickeln.
English
The prevailing paradigm for enhancing the reasoning abilities of LLMs revolves around post-training on high-quality, reasoning-intensive data. While emerging literature suggests that reasoning data is increasingly incorporated also during the mid-training stage-a practice that is relatively more proprietary and less openly characterized-the role of such data in pretraining remains unclear. In particular, due to the opaqueness of pretraining corpora in most frontier models, the effect of reasoning data introduced at different phases of pre- and/or post-training is relatively less reported in the scientific literature. This raises several important questions: Is adding reasoning data earlier during pretraining any better than introducing it during post-training? Could earlier inclusion risk overfitting and harm generalization, or instead establish durable foundations that later fine-tuning cannot recover? We conduct the first systematic study of how reasoning data-varying in scale, diversity, and quality-affects LLM performance when introduced at different stages of training. We find that front-loading reasoning data into pretraining is critical (19% avg gain), establishing foundational capabilities that cannot be fully replicated by later-stage SFT, even with more data. We uncover an asymmetric principle for optimal data allocation: pretraining benefits most from broad diversity in reasoning patterns (11% avg gain), while SFT is more sensitive to data quality (15% avg gain). We show that high-quality pretraining data has latent effects, activated only after SFT, and that naively scaling SFT data can be detrimental, washing away the benefits of early reasoning injection. Our results challenge the conventional separation of language modeling and reasoning, providing a principled guide for strategically allocating data across the entire training pipeline to build more capable models.
PDF204October 7, 2025