Предварительная загрузка рассуждений: Синергия между предварительным обучением и данными для пост-обучения

Аннотация

Преобладающая парадигма для улучшения способностей к рассуждению у крупных языковых моделей (LLM) сосредоточена на посттренинге с использованием высококачественных данных, требующих интенсивного рассуждения. Хотя появляющиеся исследования указывают на то, что данные для рассуждений всё чаще включаются также на этапе промежуточного обучения — практика, которая является более закрытой и менее открыто характеризуемой, — роль таких данных на этапе предварительного обучения остаётся неясной. В частности, из-за непрозрачности корпусов для предварительного обучения в большинстве передовых моделей, эффект от введения данных для рассуждений на разных этапах предварительного и/или посттренинга относительно мало освещается в научной литературе. Это поднимает несколько важных вопросов: Является ли добавление данных для рассуждений на более раннем этапе предварительного обучения более эффективным, чем их введение на этапе посттренинга? Может ли более раннее включение таких данных привести к переобучению и ухудшению обобщающей способности, или, напротив, заложить прочные основы, которые не могут быть восстановлены последующим тонким настройкой? Мы проводим первое систематическое исследование того, как данные для рассуждений — варьирующиеся по масштабу, разнообразию и качеству — влияют на производительность LLM при их введении на разных этапах обучения. Мы обнаруживаем, что включение данных для рассуждений на этапе предварительного обучения является критически важным (в среднем 19% улучшения), закладывая фундаментальные способности, которые не могут быть полностью воспроизведены на этапе тонкой настройки (SFT), даже при использовании большего объёма данных. Мы выявляем асимметричный принцип оптимального распределения данных: предварительное обучение больше всего выигрывает от широкого разнообразия паттернов рассуждений (в среднем 11% улучшения), тогда как SFT более чувствителен к качеству данных (в среднем 15% улучшения). Мы показываем, что высококачественные данные для предварительного обучения имеют скрытые эффекты, активируемые только после SFT, и что бездумное увеличение объёма данных для SFT может быть вредным, нивелируя преимущества раннего включения данных для рассуждений. Наши результаты бросают вызов традиционному разделению языкового моделирования и рассуждений, предоставляя принципиальное руководство для стратегического распределения данных на всех этапах обучения с целью создания более мощных моделей.

English

The prevailing paradigm for enhancing the reasoning abilities of LLMs revolves around post-training on high-quality, reasoning-intensive data. While emerging literature suggests that reasoning data is increasingly incorporated also during the mid-training stage-a practice that is relatively more proprietary and less openly characterized-the role of such data in pretraining remains unclear. In particular, due to the opaqueness of pretraining corpora in most frontier models, the effect of reasoning data introduced at different phases of pre- and/or post-training is relatively less reported in the scientific literature. This raises several important questions: Is adding reasoning data earlier during pretraining any better than introducing it during post-training? Could earlier inclusion risk overfitting and harm generalization, or instead establish durable foundations that later fine-tuning cannot recover? We conduct the first systematic study of how reasoning data-varying in scale, diversity, and quality-affects LLM performance when introduced at different stages of training. We find that front-loading reasoning data into pretraining is critical (19% avg gain), establishing foundational capabilities that cannot be fully replicated by later-stage SFT, even with more data. We uncover an asymmetric principle for optimal data allocation: pretraining benefits most from broad diversity in reasoning patterns (11% avg gain), while SFT is more sensitive to data quality (15% avg gain). We show that high-quality pretraining data has latent effects, activated only after SFT, and that naively scaling SFT data can be detrimental, washing away the benefits of early reasoning injection. Our results challenge the conventional separation of language modeling and reasoning, providing a principled guide for strategically allocating data across the entire training pipeline to build more capable models.

Предварительная загрузка рассуждений: Синергия между предварительным обучением и данными для пост-обучения

Front-Loading Reasoning: The Synergy between Pretraining and Post-Training Data

Аннотация

Support