Entraînement du tard vers le tôt : Faire apprendre plus tôt aux LLMs pour plus de rapidité et de performance

papers.abstract

Alors que les modèles de langage de grande taille (LLM) obtiennent un succès empirique remarquable grâce à l'augmentation de la taille des modèles et des données, le pré-entraînement est devenu de plus en plus critique mais aussi prohibitif en termes de calcul, entravant le développement rapide. Malgré la disponibilité de nombreux LLM pré-entraînés développés à un coût computationnel significatif, une question fondamentale du monde réel reste sous-explorée : pouvons-nous exploiter les petits modèles pré-entraînés existants pour accélérer l'entraînement de modèles plus grands ? Dans cet article, nous proposons un paradigme d'Entraînement Tardif-vers-Précoce (LET) qui permet aux LLM d'apprendre explicitement des connaissances tardives dans des étapes et des couches plus précoces. L'idée centrale est de guider les couches précoces d'un LLM durant l'entraînement précoce en utilisant les représentations des couches tardives d'un modèle pré-entraîné (c'est-à-dire en phase d'entraînement tardif). Nous identifions deux mécanismes clés qui expliquent l'efficacité de LET : l'apprentissage tardif-vers-précoce par étape et l'apprentissage tardif-vers-précoce par couche. Ces mécanismes accélèrent significativement la convergence de l'entraînement tout en améliorant robustement à la fois les capacités de modélisation du langage et les performances sur les tâches en aval, permettant un entraînement plus rapide avec des performances supérieures. Des expériences approfondies sur des modèles de 1,4 et 7 milliards de paramètres démontrent l'efficacité et l'efficience de LET. Notamment, lors de l'entraînement d'un LLM de 1,4 milliard de paramètres sur le jeu de données Pile, notre méthode atteint jusqu'à 1,6 fois d'accélération avec une amélioration de près de 5 % de la précision sur les tâches en aval par rapport à l'entraînement standard, et ce même en utilisant un modèle pré-entraîné ayant 10 fois moins de paramètres que le modèle cible.

English

As Large Language Models (LLMs) achieve remarkable empirical success through scaling model and data size, pretraining has become increasingly critical yet computationally prohibitive, hindering rapid development. Despite the availability of numerous pretrained LLMs developed at significant computational expense, a fundamental real-world question remains underexplored: Can we leverage existing small pretrained models to accelerate the training of larger models? In this paper, we propose a Late-to-Early Training (LET) paradigm that enables LLMs to explicitly learn later knowledge in earlier steps and earlier layers. The core idea is to guide the early layers of an LLM during early training using representations from the late layers of a pretrained (i.e. late training phase) model. We identify two key mechanisms that drive LET's effectiveness: late-to-early-step learning and late-to-early-layer learning. These mechanisms significantly accelerate training convergence while robustly enhancing both language modeling capabilities and downstream task performance, enabling faster training with superior performance. Extensive experiments on 1.4B and 7B parameter models demonstrate LET's efficiency and effectiveness. Notably, when training a 1.4B LLM on the Pile dataset, our method achieves up to 1.6times speedup with nearly 5\% improvement in downstream task accuracy compared to standard training, even when using a pretrained model with 10times fewer parameters than the target model.

Entraînement du tard vers le tôt : Faire apprendre plus tôt aux LLMs pour plus de rapidité et de performance

Late-to-Early Training: LET LLMs Learn Earlier, So Faster and Better

papers.abstract

Support