Pensiero Aumentato Pre-addestramento
Thinking Augmented Pre-training
September 24, 2025
Autori: Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei
cs.AI
Abstract
Questo articolo introduce un approccio semplice e scalabile per migliorare l'efficienza dei dati nel training di grandi modelli linguistici (LLM) arricchendo i dati testuali esistenti con traiettorie di pensiero. Il calcolo necessario per il pre-training degli LLM è cresciuto a un ritmo senza precedenti, mentre la disponibilità di dati di alta qualità rimane limitata. Di conseguenza, massimizzare l'utilità dei dati disponibili costituisce una sfida di ricerca significativa. Un ostacolo primario è che certi token di alta qualità sono difficili da apprendere data una capacità fissa del modello, poiché la logica sottostante a un singolo token può essere eccezionalmente complessa e profonda. Per affrontare questo problema, proponiamo il Thinking augmented Pre-Training (TPT), una metodologia universale che arricchisce il testo con traiettorie di pensiero generate automaticamente. Tale arricchimento aumenta efficacemente il volume dei dati di training e rende i token di alta qualità più apprendibili attraverso ragionamenti e scomposizioni passo-passo. Applichiamo TPT in diverse configurazioni di training fino a 100B di token, comprendendo pre-training sia con dati limitati che abbondanti, nonché mid-training a partire da checkpoint open-source robusti. I risultati sperimentali indicano che il nostro metodo migliora sostanzialmente le prestazioni degli LLM in varie dimensioni e famiglie di modelli. In particolare, TPT aumenta l'efficienza dei dati nel pre-training degli LLM di un fattore 3. Per un modello da 3B di parametri, migliora le prestazioni post-training di oltre il 10% su diversi benchmark di ragionamento complessi.
English
This paper introduces a simple and scalable approach to improve the data
efficiency of large language model (LLM) training by augmenting existing text
data with thinking trajectories. The compute for pre-training LLMs has been
growing at an unprecedented rate, while the availability of high-quality data
remains limited. Consequently, maximizing the utility of available data
constitutes a significant research challenge. A primary impediment is that
certain high-quality tokens are difficult to learn given a fixed model
capacity, as the underlying rationale for a single token can be exceptionally
complex and deep. To address this issue, we propose Thinking augmented
Pre-Training (TPT), a universal methodology that augments text with
automatically generated thinking trajectories. Such augmentation effectively
increases the volume of the training data and makes high-quality tokens more
learnable through step-by-step reasoning and decomposition. We apply TPT across
diverse training configurations up to 100B tokens, encompassing pre-training
with both constrained and abundant data, as well as mid-training from strong
open-source checkpoints. Experimental results indicate that our method
substantially improves the performance of LLMs across various model sizes and
families. Notably, TPT enhances the data efficiency of LLM pre-training by a
factor of 3. For a 3B parameter model, it improves the post-training
performance by over 10% on several challenging reasoning benchmarks.