Pensamiento Aumentado en el Preentrenamiento
Thinking Augmented Pre-training
September 24, 2025
Autores: Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei
cs.AI
Resumen
Este artículo presenta un enfoque simple y escalable para mejorar la eficiencia de datos en el entrenamiento de modelos de lenguaje grandes (LLM, por sus siglas en inglés) mediante la ampliación de textos existentes con trayectorias de pensamiento. El cómputo requerido para el preentrenamiento de LLMs ha crecido a un ritmo sin precedentes, mientras que la disponibilidad de datos de alta calidad sigue siendo limitada. En consecuencia, maximizar la utilidad de los datos disponibles constituye un desafío de investigación significativo. Un obstáculo principal es que ciertos tokens de alta calidad son difíciles de aprender dada una capacidad fija del modelo, ya que la lógica subyacente de un solo token puede ser excepcionalmente compleja y profunda. Para abordar este problema, proponemos el Preentrenamiento Aumentado con Pensamiento (TPT, por sus siglas en inglés), una metodología universal que amplía los textos con trayectorias de pensamiento generadas automáticamente. Esta ampliación aumenta efectivamente el volumen de los datos de entrenamiento y hace que los tokens de alta calidad sean más fáciles de aprender mediante razonamientos y descomposiciones paso a paso. Aplicamos TPT en diversas configuraciones de entrenamiento de hasta 100B tokens, abarcando preentrenamiento tanto con datos limitados como abundantes, así como entrenamiento intermedio a partir de puntos de control fuertes de código abierto. Los resultados experimentales indican que nuestro método mejora sustancialmente el rendimiento de los LLMs en varios tamaños y familias de modelos. En particular, TPT aumenta la eficiencia de datos en el preentrenamiento de LLMs por un factor de 3. Para un modelo de 3B parámetros, mejora el rendimiento post-entrenamiento en más de un 10% en varios benchmarks desafiantes de razonamiento.
English
This paper introduces a simple and scalable approach to improve the data
efficiency of large language model (LLM) training by augmenting existing text
data with thinking trajectories. The compute for pre-training LLMs has been
growing at an unprecedented rate, while the availability of high-quality data
remains limited. Consequently, maximizing the utility of available data
constitutes a significant research challenge. A primary impediment is that
certain high-quality tokens are difficult to learn given a fixed model
capacity, as the underlying rationale for a single token can be exceptionally
complex and deep. To address this issue, we propose Thinking augmented
Pre-Training (TPT), a universal methodology that augments text with
automatically generated thinking trajectories. Such augmentation effectively
increases the volume of the training data and makes high-quality tokens more
learnable through step-by-step reasoning and decomposition. We apply TPT across
diverse training configurations up to 100B tokens, encompassing pre-training
with both constrained and abundant data, as well as mid-training from strong
open-source checkpoints. Experimental results indicate that our method
substantially improves the performance of LLMs across various model sizes and
families. Notably, TPT enhances the data efficiency of LLM pre-training by a
factor of 3. For a 3B parameter model, it improves the post-training
performance by over 10% on several challenging reasoning benchmarks.