Spät-zu-Früh-Training: Lassen Sie LLMs früher lernen, damit sie schneller und besser werden
Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better
February 5, 2026
papers.authors: Ji Zhao, Yufei Gu, Shitong Shao, Xun Zhou, Liang Xiang, Zeke Xie
cs.AI
papers.abstract
Da Large Language Models (LLMs) durch die Skalierung von Modell- und Datengröße bemerkenswerte empirische Erfolge erzielen, ist das Pretraining zunehmend kritisch, aber rechenintensiv geworden, was die rasche Entwicklung behindert. Trotz der Verfügbarkeit zahlreicher vortrainierter LLMs, die mit erheblichem Rechenaufwand entwickelt wurden, bleibt eine grundlegende praxisrelevante Frage unzureichend erforscht: Können wir bestehende kleine vortrainierte Modelle nutzen, um das Training größerer Modelle zu beschleunigen? In diesem Artikel schlagen wir ein Late-to-Early Training (LET)-Paradigma vor, das es LLMs ermöglicht, explizit späteres Wissen in früheren Schritten und früheren Schichten zu erlernen. Die Kernidee besteht darin, die frühen Schichten eines LLMs während des frühen Trainings anhand von Repräsentationen aus den späten Schichten eines vortrainierten (d.h. in einer späten Trainingsphase befindlichen) Modells anzuleiten. Wir identifizieren zwei Schlüsselmechanismen, die die Wirksamkeit von LET antreiben: Late-to-Early-Step-Lernen und Late-to-Early-Layer-Lernen. Diese Mechanismen beschleunigen die Trainingskonvergenz erheblich und verbessern gleichzeitig robust sowohl die Sprachmodellierungsfähigkeiten als auch die Leistung bei nachgelagerten Aufgaben, was ein schnelleres Training bei überlegener Leistung ermöglicht. Umfangreiche Experimente mit Modellen von 1,4B und 7B Parametern demonstrieren die Effizienz und Wirksamkeit von LET. Bemerkenswerterweise erzielt unsere Methode beim Training eines 1,4B-LLMs auf dem Pile-Datensatz eine bis zu 1,6-fache Beschleunigung bei einer Verbesserung der Genauigkeit bei nachgelagerten Aufgaben von fast 5 % im Vergleich zum Standardtraining, selbst wenn ein vortrainiertes Modell verwendet wird, das 10-mal weniger Parameter hat als das Zielmodell.
English
As Large Language Models (LLMs) achieve remarkable empirical success through scaling model and data size, pretraining has become increasingly critical yet computationally prohibitive, hindering rapid development. Despite the availability of numerous pretrained LLMs developed at significant computational expense, a fundamental real-world question remains underexplored: Can we leverage existing small pretrained models to accelerate the training of larger models? In this paper, we propose a Late-to-Early Training (LET) paradigm that enables LLMs to explicitly learn later knowledge in earlier steps and earlier layers. The core idea is to guide the early layers of an LLM during early training using representations from the late layers of a pretrained (i.e. late training phase) model. We identify two key mechanisms that drive LET's effectiveness: late-to-early-step learning and late-to-early-layer learning. These mechanisms significantly accelerate training convergence while robustly enhancing both language modeling capabilities and downstream task performance, enabling faster training with superior performance. Extensive experiments on 1.4B and 7B parameter models demonstrate LET's efficiency and effectiveness. Notably, when training a 1.4B LLM on the Pile dataset, our method achieves up to 1.6times speedup with nearly 5\% improvement in downstream task accuracy compared to standard training, even when using a pretrained model with 10times fewer parameters than the target model.