La Malédiction de la Profondeur dans les Grands Modèles de Langage
The Curse of Depth in Large Language Models
February 9, 2025
Auteurs: Wenfang Sun, Xinyuan Song, Pengxiang Li, Lu Yin, Yefeng Zheng, Shiwei Liu
cs.AI
Résumé
Dans cet article, nous introduisons le Concept de la Malédiction de la Profondeur, qui met en lumière, explique et aborde l'observation récente dans les Modèles de Langage Géants Modernes (MLGM) où près de la moitié des couches sont moins efficaces que prévu. Nous confirmons d'abord la large existence de ce phénomène à travers les familles les plus populaires de MLGM telles que Llama, Mistral, DeepSeek et Qwen. Notre analyse, à la fois théorique et empirique, identifie que la raison sous-jacente de l'inefficacité des couches profondes dans les MLGM est l'utilisation généralisée de la Normalisation de Couche Préalable (Pre-LN). Alors que la Pre-LN stabilise l'entraînement des MLGM Transformer, sa variance de sortie croît de manière exponentielle avec la profondeur du modèle, ce qui entraîne de manière indésirable la dérivée des blocs Transformer profonds à être une matrice identité, et donc à contribuer à peine à l'entraînement. Pour résoudre cette faille d'entraînement, nous proposons la Mise à l'échelle de la Normalisation de Couche, qui ajuste la variance de la sortie de la normalisation de couche de manière inverse par la racine carrée de sa profondeur. Cette modification simple atténue l'explosion de la variance de sortie des couches Transformer plus profondes, améliorant ainsi leur contribution. Nos résultats expérimentaux, couvrant des tailles de modèle de 130M à 1B, démontrent que la Mise à l'échelle de la Normalisation de Couche améliore significativement les performances de pré-entraînement des MLGM par rapport à la Pre-LN. De plus, cette amélioration se transpose de manière transparente au fine-tuning supervisé. Tous ces gains peuvent être attribués au fait que la Mise à l'échelle de la Normalisation de Couche permet aux couches plus profondes de contribuer de manière plus efficace pendant l'entraînement.
English
In this paper, we introduce the Curse of Depth, a concept that highlights,
explains, and addresses the recent observation in modern Large Language
Models(LLMs) where nearly half of the layers are less effective than expected.
We first confirm the wide existence of this phenomenon across the most popular
families of LLMs such as Llama, Mistral, DeepSeek, and Qwen. Our analysis,
theoretically and empirically, identifies that the underlying reason for the
ineffectiveness of deep layers in LLMs is the widespread usage of Pre-Layer
Normalization (Pre-LN). While Pre-LN stabilizes the training of Transformer
LLMs, its output variance exponentially grows with the model depth, which
undesirably causes the derivative of the deep Transformer blocks to be an
identity matrix, and therefore barely contributes to the training. To resolve
this training pitfall, we propose LayerNorm Scaling, which scales the variance
of output of the layer normalization inversely by the square root of its depth.
This simple modification mitigates the output variance explosion of deeper
Transformer layers, improving their contribution. Our experimental results,
spanning model sizes from 130M to 1B, demonstrate that LayerNorm Scaling
significantly enhances LLM pre-training performance compared to Pre-LN.
Moreover, this improvement seamlessly carries over to supervised fine-tuning.
All these gains can be attributed to the fact that LayerNorm Scaling enables
deeper layers to contribute more effectively during training.Summary
AI-Generated Summary