Позднее к раннему обучению: позвольте большим языковым моделям учиться раньше, чтобы быстрее и лучше
Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better
February 5, 2026
Авторы: Ji Zhao, Yufei Gu, Shitong Shao, Xun Zhou, Liang Xiang, Zeke Xie
cs.AI
Аннотация
По мере того как большие языковые модели (LLM) демонстрируют впечатляющий эмпирический успех благодаря масштабированию размера модели и данных, предварительное обучение становится все более критичным, но вычислительно неподъемным, что сдерживает быстрое развитие. Несмотря на доступность многочисленных предобученных LLM, созданных с огромными вычислительными затратами, фундаментальный практический вопрос остается недостаточно изученным: можем ли мы использовать существующие небольшие предобученные модели для ускорения обучения более крупных моделей? В данной статье мы предлагаем парадигму «обучения от поздних стадий к ранним» (Late-to-Early Training, LET), которая позволяет LLM явно изучать знания более поздних стадий на более ранних шагах и в более ранних слоях. Основная идея заключается в том, чтобы направлять ранние слои LLM на начальном этапе обучения, используя представления из поздних слоев предобученной (то есть находящейся на поздней стадии обучения) модели. Мы выявляем два ключевых механизма, обеспечивающих эффективность LET: обучение «от поздних шагов к ранним» и обучение «от поздних слоев к ранним». Эти механизмы значительно ускоряют сходимость обучения, одновременно надежно улучшая как способности к языковому моделированию, так и производительность на последующих задачах, что позволяет добиться более быстрого обучения с превосходными результатами. Многочисленные эксперименты на моделях с 1,4 млрд и 7 млрд параметров демонстрируют эффективность и действенность подхода LET. Примечательно, что при обучении LLM с 1,4 млрд параметров на наборе данных Pile наш метод позволяет достичь до 1,6-кратного ускорения с улучшением точности на последующих задачах почти на 5% по сравнению со стандартным обучением, даже при использовании предобученной модели, имеющей в 10 раз меньше параметров, чем целевая модель.
English
As Large Language Models (LLMs) achieve remarkable empirical success through scaling model and data size, pretraining has become increasingly critical yet computationally prohibitive, hindering rapid development. Despite the availability of numerous pretrained LLMs developed at significant computational expense, a fundamental real-world question remains underexplored: Can we leverage existing small pretrained models to accelerate the training of larger models? In this paper, we propose a Late-to-Early Training (LET) paradigm that enables LLMs to explicitly learn later knowledge in earlier steps and earlier layers. The core idea is to guide the early layers of an LLM during early training using representations from the late layers of a pretrained (i.e. late training phase) model. We identify two key mechanisms that drive LET's effectiveness: late-to-early-step learning and late-to-early-layer learning. These mechanisms significantly accelerate training convergence while robustly enhancing both language modeling capabilities and downstream task performance, enabling faster training with superior performance. Extensive experiments on 1.4B and 7B parameter models demonstrate LET's efficiency and effectiveness. Notably, when training a 1.4B LLM on the Pile dataset, our method achieves up to 1.6times speedup with nearly 5\% improvement in downstream task accuracy compared to standard training, even when using a pretrained model with 10times fewer parameters than the target model.