Denken erweitertes Vor-Training
Thinking Augmented Pre-training
September 24, 2025
papers.authors: Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei
cs.AI
papers.abstract
Dieses Papier stellt einen einfachen und skalierbaren Ansatz vor, um die Dateneffizienz des Trainings großer Sprachmodelle (LLMs) zu verbessern, indem bestehende Textdaten mit Denkpfaden angereichert werden. Der Rechenaufwand für das Vortraining von LLMs wächst in beispiellosem Tempo, während die Verfügbarkeit hochwertiger Daten begrenzt bleibt. Folglich stellt die Maximierung des Nutzens verfügbarer Daten eine bedeutende Forschungsherausforderung dar. Ein Haupthemmnis ist, dass bestimmte hochwertige Tokens bei begrenzter Modellkapazität schwer zu erlernen sind, da die zugrunde liegende Logik für ein einzelnes Token außerordentlich komplex und tiefgreifend sein kann. Um dieses Problem zu lösen, schlagen wir Thinking augmented Pre-Training (TPT) vor, eine universelle Methode, die Text mit automatisch generierten Denkpfaden anreichert. Eine solche Anreicherung erhöht effektiv das Volumen der Trainingsdaten und macht hochwertige Tokens durch schrittweises Denken und Zerlegung besser erlernbar. Wir wenden TPT in verschiedenen Trainingskonfigurationen bis zu 100B Tokens an, einschließlich Vortraining mit sowohl begrenzten als auch reichlich vorhandenen Daten sowie Mittraining von starken Open-Source-Checkpoints. Experimentelle Ergebnisse zeigen, dass unsere Methode die Leistung von LLMs über verschiedene Modellgrößen und -familien hinweg erheblich verbessert. Insbesondere steigert TPT die Dateneffizienz des LLM-Vortrainings um den Faktor 3. Für ein Modell mit 3B Parametern verbessert es die Leistung nach dem Training um über 10 % in mehreren anspruchsvollen Reasoning-Benchmarks.
English
This paper introduces a simple and scalable approach to improve the data
efficiency of large language model (LLM) training by augmenting existing text
data with thinking trajectories. The compute for pre-training LLMs has been
growing at an unprecedented rate, while the availability of high-quality data
remains limited. Consequently, maximizing the utility of available data
constitutes a significant research challenge. A primary impediment is that
certain high-quality tokens are difficult to learn given a fixed model
capacity, as the underlying rationale for a single token can be exceptionally
complex and deep. To address this issue, we propose Thinking augmented
Pre-Training (TPT), a universal methodology that augments text with
automatically generated thinking trajectories. Such augmentation effectively
increases the volume of the training data and makes high-quality tokens more
learnable through step-by-step reasoning and decomposition. We apply TPT across
diverse training configurations up to 100B tokens, encompassing pre-training
with both constrained and abundant data, as well as mid-training from strong
open-source checkpoints. Experimental results indicate that our method
substantially improves the performance of LLMs across various model sizes and
families. Notably, TPT enhances the data efficiency of LLM pre-training by a
factor of 3. For a 3B parameter model, it improves the post-training
performance by over 10% on several challenging reasoning benchmarks.