Pensée par Prétraitement Augmenté
Thinking Augmented Pre-training
September 24, 2025
papers.authors: Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei
cs.AI
papers.abstract
Cet article présente une approche simple et évolutive pour améliorer l'efficacité des données dans l'entraînement des grands modèles de langage (LLM) en enrichissant les données textuelles existantes avec des trajectoires de pensée. Le calcul nécessaire pour le pré-entraînement des LLM croît à un rythme sans précédent, tandis que la disponibilité de données de haute qualité reste limitée. Par conséquent, maximiser l'utilité des données disponibles constitue un défi de recherche majeur. Un obstacle principal est que certains tokens de haute qualité sont difficiles à apprendre avec une capacité de modèle fixe, car la logique sous-jacente d'un seul token peut être exceptionnellement complexe et profonde. Pour résoudre ce problème, nous proposons le Pré-entraînement Augmenté par la Pensée (TPT), une méthodologie universelle qui enrichit le texte avec des trajectoires de pensée générées automatiquement. Cet enrichissement augmente efficacement le volume des données d'entraînement et rend les tokens de haute qualité plus faciles à apprendre grâce à un raisonnement et une décomposition étape par étape. Nous appliquons TPT à diverses configurations d'entraînement allant jusqu'à 100 milliards de tokens, couvrant le pré-entraînement avec des données limitées et abondantes, ainsi que l'entraînement intermédiaire à partir de points de contrôle open-source performants. Les résultats expérimentaux indiquent que notre méthode améliore considérablement les performances des LLM pour différentes tailles et familles de modèles. Notamment, TPT améliore l'efficacité des données dans le pré-entraînement des LLM d'un facteur 3. Pour un modèle de 3 milliards de paramètres, il améliore les performances post-entraînement de plus de 10 % sur plusieurs benchmarks de raisonnement difficiles.
English
This paper introduces a simple and scalable approach to improve the data
efficiency of large language model (LLM) training by augmenting existing text
data with thinking trajectories. The compute for pre-training LLMs has been
growing at an unprecedented rate, while the availability of high-quality data
remains limited. Consequently, maximizing the utility of available data
constitutes a significant research challenge. A primary impediment is that
certain high-quality tokens are difficult to learn given a fixed model
capacity, as the underlying rationale for a single token can be exceptionally
complex and deep. To address this issue, we propose Thinking augmented
Pre-Training (TPT), a universal methodology that augments text with
automatically generated thinking trajectories. Such augmentation effectively
increases the volume of the training data and makes high-quality tokens more
learnable through step-by-step reasoning and decomposition. We apply TPT across
diverse training configurations up to 100B tokens, encompassing pre-training
with both constrained and abundant data, as well as mid-training from strong
open-source checkpoints. Experimental results indicate that our method
substantially improves the performance of LLMs across various model sizes and
families. Notably, TPT enhances the data efficiency of LLM pre-training by a
factor of 3. For a 3B parameter model, it improves the post-training
performance by over 10% on several challenging reasoning benchmarks.