ChatPaper.aiChatPaper

Pré-treinamento com Pensamento Aumentado

Thinking Augmented Pre-training

September 24, 2025
Autores: Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei
cs.AI

Resumo

Este artigo apresenta uma abordagem simples e escalável para melhorar a eficiência de dados no treinamento de grandes modelos de linguagem (LLMs) ao aumentar os dados textuais existentes com trajetórias de pensamento. O poder computacional necessário para o pré-treinamento de LLMs tem crescido a uma taxa sem precedentes, enquanto a disponibilidade de dados de alta qualidade permanece limitada. Consequentemente, maximizar a utilidade dos dados disponíveis constitui um desafio de pesquisa significativo. Um dos principais obstáculos é que certos tokens de alta qualidade são difíceis de aprender dada uma capacidade fixa do modelo, já que a lógica subjacente para um único token pode ser excepcionalmente complexa e profunda. Para resolver esse problema, propomos o Pré-Treinamento Aumentado com Pensamento (TPT), uma metodologia universal que aumenta o texto com trajetórias de pensamento geradas automaticamente. Esse aumento efetivamente expande o volume dos dados de treinamento e torna os tokens de alta qualidade mais aprendíveis por meio de raciocínio e decomposição passo a passo. Aplicamos o TPT em diversas configurações de treinamento com até 100 bilhões de tokens, abrangendo pré-treinamento com dados limitados e abundantes, bem como treinamento intermediário a partir de checkpoints de código aberto robustos. Os resultados experimentais indicam que nosso método melhora substancialmente o desempenho de LLMs em vários tamanhos e famílias de modelos. Notavelmente, o TPT aumenta a eficiência de dados no pré-treinamento de LLMs por um fator de 3. Para um modelo com 3 bilhões de parâmetros, ele melhora o desempenho pós-treinamento em mais de 10% em vários benchmarks desafiadores de raciocínio.
English
This paper introduces a simple and scalable approach to improve the data efficiency of large language model (LLM) training by augmenting existing text data with thinking trajectories. The compute for pre-training LLMs has been growing at an unprecedented rate, while the availability of high-quality data remains limited. Consequently, maximizing the utility of available data constitutes a significant research challenge. A primary impediment is that certain high-quality tokens are difficult to learn given a fixed model capacity, as the underlying rationale for a single token can be exceptionally complex and deep. To address this issue, we propose Thinking augmented Pre-Training (TPT), a universal methodology that augments text with automatically generated thinking trajectories. Such augmentation effectively increases the volume of the training data and makes high-quality tokens more learnable through step-by-step reasoning and decomposition. We apply TPT across diverse training configurations up to 100B tokens, encompassing pre-training with both constrained and abundant data, as well as mid-training from strong open-source checkpoints. Experimental results indicate that our method substantially improves the performance of LLMs across various model sizes and families. Notably, TPT enhances the data efficiency of LLM pre-training by a factor of 3. For a 3B parameter model, it improves the post-training performance by over 10% on several challenging reasoning benchmarks.
PDF222September 26, 2025