ChatPaper.aiChatPaper

Late-to-Early Training: LLMに早期学習を促し、より高速・高精度な性能を実現

Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better

February 5, 2026
著者: Ji Zhao, Yufei Gu, Shitong Shao, Xun Zhou, Liang Xiang, Zeke Xie
cs.AI

要旨

大規模言語モデル(LLM)がモデル規模とデータ規模の拡大によって経験的に顕著な成功を収めるにつれ、事前学習はますます重要である一方で計算コストが膨大となり、急速な開発の妨げとなっている。計算コストをかけて開発された多数の事前学習済みLLMが利用可能であるにもかかわらず、現実世界における基本的な疑問、すなわち「既存の小規模な事前学習済みモデルを活用して大規模モデルの学習を加速できるか」という点は十分に検討されていない。本論文では、LLMが早期の段階および初期の層で後期の知識を明示的に学習できるようにする「後期から前期への訓練(Late-to-Early Training: LET)」パラダイムを提案する。中核となる考え方は、事前学習済み(すなわち学習後期段階の)モデルの後期層からの表現を用いて、学習初期段階におけるLLMの初期層を指導することである。我々はLETの有効性を支える二つの主要メカニズム、すなわち「後期から前期ステップへの学習」と「後期から前期層への学習」を特定した。これらのメカニズムは、言語モデリング能力と下流タスクの性能の両方を堅牢に向上させながら、学習の収束を大幅に加速し、より高速な学習と優れた性能を実現する。14億パラメータおよび70億パラメータモデルを用いた大規模な実験により、LETの効率性と有効性が実証された。特に、Pileデータセットを用いて14億パラメータLLMを訓練する際、本手法は標準的な訓練と比較して最大1.6倍の高速化を達成し、下流タスクの精度で約5%の改善を示した。これは、目標モデルよりも10倍少ないパラメータを持つ事前学習済みモデルを使用した場合でも同様である。
English
As Large Language Models (LLMs) achieve remarkable empirical success through scaling model and data size, pretraining has become increasingly critical yet computationally prohibitive, hindering rapid development. Despite the availability of numerous pretrained LLMs developed at significant computational expense, a fundamental real-world question remains underexplored: Can we leverage existing small pretrained models to accelerate the training of larger models? In this paper, we propose a Late-to-Early Training (LET) paradigm that enables LLMs to explicitly learn later knowledge in earlier steps and earlier layers. The core idea is to guide the early layers of an LLM during early training using representations from the late layers of a pretrained (i.e. late training phase) model. We identify two key mechanisms that drive LET's effectiveness: late-to-early-step learning and late-to-early-layer learning. These mechanisms significantly accelerate training convergence while robustly enhancing both language modeling capabilities and downstream task performance, enabling faster training with superior performance. Extensive experiments on 1.4B and 7B parameter models demonstrate LET's efficiency and effectiveness. Notably, when training a 1.4B LLM on the Pile dataset, our method achieves up to 1.6times speedup with nearly 5\% improvement in downstream task accuracy compared to standard training, even when using a pretrained model with 10times fewer parameters than the target model.
PDF31February 7, 2026