Мышление с расширенным предварительным обучением
Thinking Augmented Pre-training
September 24, 2025
Авторы: Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei
cs.AI
Аннотация
В данной статье представлен простой и масштабируемый подход к повышению эффективности использования данных при обучении крупных языковых моделей (LLM) за счет дополнения существующих текстовых данных траекториями мышления. Вычислительные ресурсы, затрачиваемые на предварительное обучение LLM, растут беспрецедентными темпами, в то время как доступность высококачественных данных остается ограниченной. В связи с этим максимизация полезности доступных данных представляет собой значительную исследовательскую задачу. Основным препятствием является то, что определенные высококачественные токены сложно изучить при фиксированной емкости модели, поскольку базовое обоснование для одного токена может быть исключительно сложным и глубоким. Для решения этой проблемы мы предлагаем методологию Thinking augmented Pre-Training (TPT), которая универсально дополняет тексты автоматически сгенерированными траекториями мышления. Такое дополнение эффективно увеличивает объем обучающих данных и делает высококачественные токены более доступными для изучения благодаря пошаговому рассуждению и декомпозиции. Мы применяем TPT в различных конфигурациях обучения до 100 млрд токенов, включая предварительное обучение как с ограниченными, так и с обильными данными, а также промежуточное обучение на основе сильных открытых контрольных точек. Экспериментальные результаты показывают, что наш метод существенно улучшает производительность LLM для различных размеров и семейств моделей. В частности, TPT повышает эффективность использования данных при предварительном обучении LLM в 3 раза. Для модели с 3 млрд параметров он улучшает производительность после обучения более чем на 10% на нескольких сложных тестах на рассуждение.
English
This paper introduces a simple and scalable approach to improve the data
efficiency of large language model (LLM) training by augmenting existing text
data with thinking trajectories. The compute for pre-training LLMs has been
growing at an unprecedented rate, while the availability of high-quality data
remains limited. Consequently, maximizing the utility of available data
constitutes a significant research challenge. A primary impediment is that
certain high-quality tokens are difficult to learn given a fixed model
capacity, as the underlying rationale for a single token can be exceptionally
complex and deep. To address this issue, we propose Thinking augmented
Pre-Training (TPT), a universal methodology that augments text with
automatically generated thinking trajectories. Such augmentation effectively
increases the volume of the training data and makes high-quality tokens more
learnable through step-by-step reasoning and decomposition. We apply TPT across
diverse training configurations up to 100B tokens, encompassing pre-training
with both constrained and abundant data, as well as mid-training from strong
open-source checkpoints. Experimental results indicate that our method
substantially improves the performance of LLMs across various model sizes and
families. Notably, TPT enhances the data efficiency of LLM pre-training by a
factor of 3. For a 3B parameter model, it improves the post-training
performance by over 10% on several challenging reasoning benchmarks.