사고 증강 사전 학습
Thinking Augmented Pre-training
September 24, 2025
저자: Liang Wang, Nan Yang, Shaohan Huang, Li Dong, Furu Wei
cs.AI
초록
본 논문은 기존 텍스트 데이터에 사고 궤적(thinking trajectories)을 추가하여 대규모 언어 모델(LLM) 학습의 데이터 효율성을 개선하는 간단하고 확장 가능한 접근 방식을 소개한다. LLM 사전 학습에 필요한 컴퓨팅 리소스는 전례 없는 속도로 증가하고 있는 반면, 고품질 데이터의 가용성은 여전히 제한적이다. 따라서, 사용 가능한 데이터의 유용성을 극대화하는 것은 중요한 연구 과제로 대두되고 있다. 주요 장애 요인 중 하나는 고정된 모델 용량 내에서 특정 고품질 토큰을 학습하기가 어렵다는 점인데, 이는 단일 토큰의 근본적인 논리가 매우 복잡하고 깊을 수 있기 때문이다. 이 문제를 해결하기 위해, 우리는 텍스트에 자동 생성된 사고 궤적을 추가하는 보편적인 방법론인 사고 증강 사전 학습(Thinking augmented Pre-Training, TPT)을 제안한다. 이러한 증강은 훈련 데이터의 양을 효과적으로 증가시키고, 단계별 추론과 분해를 통해 고품질 토큰을 더 쉽게 학습할 수 있게 한다. 우리는 TPT를 100B 토큰 규모까지 다양한 학습 설정에 적용했으며, 이는 제한된 데이터와 풍부한 데이터를 모두 사용한 사전 학습뿐만 아니라 강력한 오픈소스 체크포인트를 활용한 중간 학습도 포함한다. 실험 결과는 우리의 방법이 다양한 모델 크기와 계열에 걸쳐 LLM의 성능을 크게 향상시킨다는 것을 보여준다. 특히, TPT는 LLM 사전 학습의 데이터 효율성을 3배까지 개선한다. 3B 파라미터 모델의 경우, 여러 도전적인 추론 벤치마크에서 사후 학습 성능을 10% 이상 향상시킨다.
English
This paper introduces a simple and scalable approach to improve the data
efficiency of large language model (LLM) training by augmenting existing text
data with thinking trajectories. The compute for pre-training LLMs has been
growing at an unprecedented rate, while the availability of high-quality data
remains limited. Consequently, maximizing the utility of available data
constitutes a significant research challenge. A primary impediment is that
certain high-quality tokens are difficult to learn given a fixed model
capacity, as the underlying rationale for a single token can be exceptionally
complex and deep. To address this issue, we propose Thinking augmented
Pre-Training (TPT), a universal methodology that augments text with
automatically generated thinking trajectories. Such augmentation effectively
increases the volume of the training data and makes high-quality tokens more
learnable through step-by-step reasoning and decomposition. We apply TPT across
diverse training configurations up to 100B tokens, encompassing pre-training
with both constrained and abundant data, as well as mid-training from strong
open-source checkpoints. Experimental results indicate that our method
substantially improves the performance of LLMs across various model sizes and
families. Notably, TPT enhances the data efficiency of LLM pre-training by a
factor of 3. For a 3B parameter model, it improves the post-training
performance by over 10% on several challenging reasoning benchmarks.