Laat-naar-Vroeg Training: Laat LLM's eerder leren, zodat ze sneller en beter worden

Samenvatting

Naarmate grote taalmodelle (LLM's) opmerkelijke empirische successen behalen door de schaal van modellen en data te vergroten, is voorafgaande training steeds kritieker geworden, maar ook rekenkundig prohibitief, wat een snelle ontwikkeling belemmert. Ondanks de beschikbaarheid van talrijke voorgetrainde LLM's die met aanzienlijke rekenkosten zijn ontwikkeld, blijft een fundamentele praktijkvraag onderbelicht: Kunnen we bestaande kleine voorgetrainde modellen benutten om de training van grotere modellen te versnellen? In dit artikel stellen we een Laat-naar-Vroeg Training (LET) paradigma voor dat LLM's in staat stelt om expliciet latere kennis in eerdere stappen en eerdere lagen aan te leren. De kernidee is om de vroege lagen van een LLM tijdens de vroege trainingsfase te begeleiden met representaties uit de late lagen van een voorgetraind (d.w.z. laat trainingsfase) model. We identificeren twee sleutelmechanismen die de effectiviteit van LET drijven: laat-naar-vroege-stap leren en laat-naar-vroege-laag leren. Deze mechanismen versnellen de trainingsconvergentie aanzienlijk en verbeteren tegelijkertijd robuust zowel de taalmodelleringscapaciteiten als de prestaties op downstreamtaken, waardoor snellere training met superieure prestaties mogelijk wordt. Uitgebreide experimenten met modellen van 1,4B en 7B parameters demonstreren de efficiëntie en effectiviteit van LET. Opmerkelijk is dat bij het trainen van een 1,4B LLM op de Pile-dataset onze methode een versnelling tot 1,6 keer bereikt met bijna 5% verbetering in downstreamtaaknauwkeurigheid vergeleken met standaardtraining, zelfs wanneer een voorgetraind model wordt gebruikt dat 10 keer minder parameters heeft dan het doelmodel.

English

As Large Language Models (LLMs) achieve remarkable empirical success through scaling model and data size, pretraining has become increasingly critical yet computationally prohibitive, hindering rapid development. Despite the availability of numerous pretrained LLMs developed at significant computational expense, a fundamental real-world question remains underexplored: Can we leverage existing small pretrained models to accelerate the training of larger models? In this paper, we propose a Late-to-Early Training (LET) paradigm that enables LLMs to explicitly learn later knowledge in earlier steps and earlier layers. The core idea is to guide the early layers of an LLM during early training using representations from the late layers of a pretrained (i.e. late training phase) model. We identify two key mechanisms that drive LET's effectiveness: late-to-early-step learning and late-to-early-layer learning. These mechanisms significantly accelerate training convergence while robustly enhancing both language modeling capabilities and downstream task performance, enabling faster training with superior performance. Extensive experiments on 1.4B and 7B parameter models demonstrate LET's efficiency and effectiveness. Notably, when training a 1.4B LLM on the Pile dataset, our method achieves up to 1.6times speedup with nearly 5\% improvement in downstream task accuracy compared to standard training, even when using a pretrained model with 10times fewer parameters than the target model.

Laat-naar-Vroeg Training: Laat LLM's eerder leren, zodat ze sneller en beter worden

Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better

Samenvatting

Support