Treinamento do Tardio para o Precoce: FAZER com que os LLMs Aprendam Mais Cedo, para Serem Mais Rápidos e Melhores
Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better
February 5, 2026
Autores: Ji Zhao, Yufei Gu, Shitong Shao, Xun Zhou, Liang Xiang, Zeke Xie
cs.AI
Resumo
**À medida que os Modelos de Linguagem de Grande Escala (LLMs) alcançam sucesso empírico notável por meio da escalonamento do modelo e do volume de dados, o pré-treinamento tornou-se cada vez mais crítico, mas computacionalmente proibitivo, dificultando o desenvolvimento rápido.** Apesar da disponibilidade de inúmeros LLMs pré-treinados desenvolvidos com custo computacional significativo, uma questão fundamental do mundo real permanece pouco explorada: Podemos aproveitar modelos pequenos pré-treinados existentes para acelerar o treinamento de modelos maiores? Neste artigo, propomos um paradigma de Treinamento Tardio para Precoce (LET, do inglês *Late-to-Early Training*) que permite aos LLMs aprenderem explicitamente conhecimento tardio em etapas e camadas precoces. A ideia central é guiar as camadas iniciais de um LLM durante o treinamento inicial usando representações das camadas finais de um modelo pré-treinado (ou seja, em fase de treinamento tardia). Identificamos dois mecanismos-chave que impulsionam a eficácia do LET: aprendizado de etapa-tardia-para-precoce e aprendizado de camada-tardia-para-precoce. Esses mecanismos aceleram significativamente a convergência do treinamento, ao mesmo tempo que robustecem as capacidades de modelagem de linguagem e o desempenho em tarefas downstream, permitindo um treinamento mais rápido com desempenho superior. Extensos experimentos com modelos de 1,4B e 7B de parâmetros demonstram a eficiência e eficácia do LET. Notavelmente, ao treinar um LLM de 1,4B no conjunto de dados The Pile, nosso método alcança uma aceleração de até 1,6 vezes com uma melhoria de quase 5% na precisão de tarefas downstream em comparação com o treinamento padrão, mesmo utilizando um modelo pré-treinado com 10 vezes menos parâmetros do que o modelo alvo.
English
As Large Language Models (LLMs) achieve remarkable empirical success through scaling model and data size, pretraining has become increasingly critical yet computationally prohibitive, hindering rapid development. Despite the availability of numerous pretrained LLMs developed at significant computational expense, a fundamental real-world question remains underexplored: Can we leverage existing small pretrained models to accelerate the training of larger models? In this paper, we propose a Late-to-Early Training (LET) paradigm that enables LLMs to explicitly learn later knowledge in earlier steps and earlier layers. The core idea is to guide the early layers of an LLM during early training using representations from the late layers of a pretrained (i.e. late training phase) model. We identify two key mechanisms that drive LET's effectiveness: late-to-early-step learning and late-to-early-layer learning. These mechanisms significantly accelerate training convergence while robustly enhancing both language modeling capabilities and downstream task performance, enabling faster training with superior performance. Extensive experiments on 1.4B and 7B parameter models demonstrate LET's efficiency and effectiveness. Notably, when training a 1.4B LLM on the Pile dataset, our method achieves up to 1.6times speedup with nearly 5\% improvement in downstream task accuracy compared to standard training, even when using a pretrained model with 10times fewer parameters than the target model.