Denkend Augmented Pre-training
Thinking Augmented Pre-training
September 24, 2025
Auteurs: Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei
cs.AI
Samenvatting
Dit artikel introduceert een eenvoudige en schaalbare aanpak om de data-efficiëntie van de training van grote taalmodellen (LLM's) te verbeteren door bestaande tekstdata aan te vullen met denkprocessen. De rekenkracht die nodig is voor het pre-trainen van LLM's groeit in een ongekend tempo, terwijl de beschikbaarheid van hoogwaardige data beperkt blijft. Hierdoor vormt het maximaliseren van het nut van beschikbare data een belangrijke onderzoeksuitdaging. Een primair obstakel is dat bepaalde hoogwaardige tokens moeilijk te leren zijn bij een vaste modelcapaciteit, omdat de onderliggende redenering voor een enkel token uitzonderlijk complex en diepgaand kan zijn. Om dit probleem aan te pakken, stellen we Thinking augmented Pre-Training (TPT) voor, een universele methodologie die tekst aanvult met automatisch gegenereerde denkprocessen. Deze aanvulling vergroot effectief de omvang van de trainingsdata en maakt hoogwaardige tokens beter leerbaar door middel van stapsgewijze redenering en decompositie. We passen TPT toe in diverse trainingsconfiguraties tot 100B tokens, waaronder pre-training met zowel beperkte als overvloedige data, evenals mid-training vanuit sterke open-source checkpoints. Experimentele resultaten tonen aan dat onze methode de prestaties van LLM's aanzienlijk verbetert over verschillende modelgroottes en -families. Met name verbetert TPT de data-efficiëntie van LLM pre-training met een factor 3. Voor een model met 3B parameters verbetert het de post-training prestaties met meer dan 10% op verschillende uitdagende redeneerbenchmarks.
English
This paper introduces a simple and scalable approach to improve the data
efficiency of large language model (LLM) training by augmenting existing text
data with thinking trajectories. The compute for pre-training LLMs has been
growing at an unprecedented rate, while the availability of high-quality data
remains limited. Consequently, maximizing the utility of available data
constitutes a significant research challenge. A primary impediment is that
certain high-quality tokens are difficult to learn given a fixed model
capacity, as the underlying rationale for a single token can be exceptionally
complex and deep. To address this issue, we propose Thinking augmented
Pre-Training (TPT), a universal methodology that augments text with
automatically generated thinking trajectories. Such augmentation effectively
increases the volume of the training data and makes high-quality tokens more
learnable through step-by-step reasoning and decomposition. We apply TPT across
diverse training configurations up to 100B tokens, encompassing pre-training
with both constrained and abundant data, as well as mid-training from strong
open-source checkpoints. Experimental results indicate that our method
substantially improves the performance of LLMs across various model sizes and
families. Notably, TPT enhances the data efficiency of LLM pre-training by a
factor of 3. For a 3B parameter model, it improves the post-training
performance by over 10% on several challenging reasoning benchmarks.