후기에서 초기 학습으로: 대규모 언어 모델이 더 일찍 학습하도록 하여 더 빠르고 더 나은 성능 달성
Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better
February 5, 2026
저자: Ji Zhao, Yufei Gu, Shitong Shao, Xun Zhou, Liang Xiang, Zeke Xie
cs.AI
초록
대규모 언어 모델(LLM)이 모델 및 데이터 규모의 확장을 통해 경험적으로 뛰어난 성과를 달성함에 따라, 사전 학습은 점점 더 중요해졌지만 계산 비용이 매우 커져 빠른 개발을 저해하고 있습니다. 상당한 계산 비용을 들여 개발된 수많은 사전 학습된 LLM이 존재함에도 불구하고, '기존의 작은 사전 학습 모델을 활용하여 더 큰 모델의 학습을 가속화할 수 있는가'라는 근본적인 현실적 의문은 충분히 탐구되지 않고 있습니다. 본 논문에서는 LLM이 이후 단계의 지식을 이전 단계 및 이전 계층에서 명시적으로 학습할 수 있는 후기-초기 학습(Late-to-Early Training, LET) 패러다임을 제안합니다. 핵심 아이디어는 사전 학습된(즉, 후기 학습 단계의) 모델의 후기 계층에서 얻은 표현을 사용하여 초기 학습 단계의 LLM 초기 계층을 안내하는 것입니다. 우리는 LET의 효과를 주도하는 두 가지 핵심 메커니즘, 즉 후기-초기 단계 학습과 후기-초기 계층 학습을 확인했습니다. 이러한 메커니즘은 언어 모델링 능력과 다운스트림 작업 성능을 모두 강력하게 향상시키면서 학습 수렴을 상당히 가속화하여, 더 빠른 학습과 더 우수한 성능을 가능하게 합니다. 14억 개 및 70억 개 매개변수 모델에 대한 광범위한 실험을 통해 LET의 효율성과 효과성을 입증했습니다. 특히 Pile 데이터셋으로 14억 개 매개변수 LLM을 학습할 때, 우리의 방법은 목표 모델보다 매개변수가 10배 적은 사전 학습 모델을 사용하는 경우에도 표준 학습 대비 최대 1.6배의 속도 향상과 약 5%의 다운스트림 작업 정확도 개선을 달성했습니다.
English
As Large Language Models (LLMs) achieve remarkable empirical success through scaling model and data size, pretraining has become increasingly critical yet computationally prohibitive, hindering rapid development. Despite the availability of numerous pretrained LLMs developed at significant computational expense, a fundamental real-world question remains underexplored: Can we leverage existing small pretrained models to accelerate the training of larger models? In this paper, we propose a Late-to-Early Training (LET) paradigm that enables LLMs to explicitly learn later knowledge in earlier steps and earlier layers. The core idea is to guide the early layers of an LLM during early training using representations from the late layers of a pretrained (i.e. late training phase) model. We identify two key mechanisms that drive LET's effectiveness: late-to-early-step learning and late-to-early-layer learning. These mechanisms significantly accelerate training convergence while robustly enhancing both language modeling capabilities and downstream task performance, enabling faster training with superior performance. Extensive experiments on 1.4B and 7B parameter models demonstrate LET's efficiency and effectiveness. Notably, when training a 1.4B LLM on the Pile dataset, our method achieves up to 1.6times speedup with nearly 5\% improvement in downstream task accuracy compared to standard training, even when using a pretrained model with 10times fewer parameters than the target model.