Предварительная загрузка рассуждений: Синергия между предварительным обучением и данными для пост-обучения
Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data
September 26, 2025
Авторы: Syeda Nahida Akter, Shrimai Prabhumoye, Eric Nyberg, Mostofa Patwary, Mohammad Shoeybi, Yejin Choi, Bryan Catanzaro
cs.AI
Аннотация
Преобладающая парадигма для улучшения способностей к рассуждению у крупных языковых моделей (LLM) сосредоточена на посттренинге с использованием высококачественных данных, требующих интенсивного рассуждения. Хотя появляющиеся исследования указывают на то, что данные для рассуждений всё чаще включаются также на этапе промежуточного обучения — практика, которая является более закрытой и менее открыто характеризуемой, — роль таких данных на этапе предварительного обучения остаётся неясной. В частности, из-за непрозрачности корпусов для предварительного обучения в большинстве передовых моделей, эффект от введения данных для рассуждений на разных этапах предварительного и/или посттренинга относительно мало освещается в научной литературе. Это поднимает несколько важных вопросов: Является ли добавление данных для рассуждений на более раннем этапе предварительного обучения более эффективным, чем их введение на этапе посттренинга? Может ли более раннее включение таких данных привести к переобучению и ухудшению обобщающей способности, или, напротив, заложить прочные основы, которые не могут быть восстановлены последующим тонким настройкой? Мы проводим первое систематическое исследование того, как данные для рассуждений — варьирующиеся по масштабу, разнообразию и качеству — влияют на производительность LLM при их введении на разных этапах обучения. Мы обнаруживаем, что включение данных для рассуждений на этапе предварительного обучения является критически важным (в среднем 19% улучшения), закладывая фундаментальные способности, которые не могут быть полностью воспроизведены на этапе тонкой настройки (SFT), даже при использовании большего объёма данных. Мы выявляем асимметричный принцип оптимального распределения данных: предварительное обучение больше всего выигрывает от широкого разнообразия паттернов рассуждений (в среднем 11% улучшения), тогда как SFT более чувствителен к качеству данных (в среднем 15% улучшения). Мы показываем, что высококачественные данные для предварительного обучения имеют скрытые эффекты, активируемые только после SFT, и что бездумное увеличение объёма данных для SFT может быть вредным, нивелируя преимущества раннего включения данных для рассуждений. Наши результаты бросают вызов традиционному разделению языкового моделирования и рассуждений, предоставляя принципиальное руководство для стратегического распределения данных на всех этапах обучения с целью создания более мощных моделей.
English
The prevailing paradigm for enhancing the reasoning abilities of LLMs
revolves around post-training on high-quality, reasoning-intensive data. While
emerging literature suggests that reasoning data is increasingly incorporated
also during the mid-training stage-a practice that is relatively more
proprietary and less openly characterized-the role of such data in pretraining
remains unclear. In particular, due to the opaqueness of pretraining corpora in
most frontier models, the effect of reasoning data introduced at different
phases of pre- and/or post-training is relatively less reported in the
scientific literature. This raises several important questions: Is adding
reasoning data earlier during pretraining any better than introducing it during
post-training? Could earlier inclusion risk overfitting and harm
generalization, or instead establish durable foundations that later fine-tuning
cannot recover? We conduct the first systematic study of how reasoning
data-varying in scale, diversity, and quality-affects LLM performance when
introduced at different stages of training. We find that front-loading
reasoning data into pretraining is critical (19% avg gain), establishing
foundational capabilities that cannot be fully replicated by later-stage SFT,
even with more data. We uncover an asymmetric principle for optimal data
allocation: pretraining benefits most from broad diversity in reasoning
patterns (11% avg gain), while SFT is more sensitive to data quality (15% avg
gain). We show that high-quality pretraining data has latent effects, activated
only after SFT, and that naively scaling SFT data can be detrimental, washing
away the benefits of early reasoning injection. Our results challenge the
conventional separation of language modeling and reasoning, providing a
principled guide for strategically allocating data across the entire training
pipeline to build more capable models.