ChatPaper.aiChatPaper

La Maledizione della Profondità nei Grandi Modelli Linguistici

The Curse of Depth in Large Language Models

February 9, 2025
Autori: Wenfang Sun, Xinyuan Song, Pengxiang Li, Lu Yin, Yefeng Zheng, Shiwei Liu
cs.AI

Abstract

In questo articolo, presentiamo il Concetto della Maledizione della Profondità, che mette in luce, spiega e affronta l'osservazione recente nei moderni Grandi Modelli di Linguaggio (LLM) in cui quasi la metà dei livelli è meno efficace del previsto. Confermiamo innanzitutto l'ampia diffusione di questo fenomeno nelle famiglie più popolari di LLM come Llama, Mistral, DeepSeek e Qwen. La nostra analisi, sia teorica che empirica, individua che la ragione sottostante all'inefficacia dei livelli profondi nei LLM è l'ampio utilizzo della Normalizzazione Pre-Livello (Pre-LN). Mentre la Pre-LN stabilizza l'addestramento dei LLM Transformer, la varianza dell'output cresce in modo esponenziale con la profondità del modello, causando indesiderabilmente che il gradiente dei blocchi Transformer profondi sia una matrice identità e quindi contribuisca appena all'addestramento. Per risolvere questa falla nell'addestramento, proponiamo la Scalatura della Normalizzazione del Livello, che scala la varianza dell'output della normalizzazione del livello in modo inversamente proporzionale alla radice quadrata della sua profondità. Questa semplice modifica attenua l'esplosione della varianza dell'output dei livelli Transformer più profondi, migliorandone il contributo. I nostri risultati sperimentali, che coprono dimensioni del modello da 130M a 1B, dimostrano che la Scalatura della Normalizzazione del Livello migliora significativamente le prestazioni del pre-addestramento dei LLM rispetto alla Pre-LN. Inoltre, questo miglioramento si trasferisce senza soluzione di continuità al fine-tuning supervisionato. Tutti questi vantaggi possono essere attribuiti al fatto che la Scalatura della Normalizzazione del Livello consente ai livelli più profondi di contribuire in modo più efficace durante l'addestramento.
English
In this paper, we introduce the Curse of Depth, a concept that highlights, explains, and addresses the recent observation in modern Large Language Models(LLMs) where nearly half of the layers are less effective than expected. We first confirm the wide existence of this phenomenon across the most popular families of LLMs such as Llama, Mistral, DeepSeek, and Qwen. Our analysis, theoretically and empirically, identifies that the underlying reason for the ineffectiveness of deep layers in LLMs is the widespread usage of Pre-Layer Normalization (Pre-LN). While Pre-LN stabilizes the training of Transformer LLMs, its output variance exponentially grows with the model depth, which undesirably causes the derivative of the deep Transformer blocks to be an identity matrix, and therefore barely contributes to the training. To resolve this training pitfall, we propose LayerNorm Scaling, which scales the variance of output of the layer normalization inversely by the square root of its depth. This simple modification mitigates the output variance explosion of deeper Transformer layers, improving their contribution. Our experimental results, spanning model sizes from 130M to 1B, demonstrate that LayerNorm Scaling significantly enhances LLM pre-training performance compared to Pre-LN. Moreover, this improvement seamlessly carries over to supervised fine-tuning. All these gains can be attributed to the fact that LayerNorm Scaling enables deeper layers to contribute more effectively during training.

Summary

AI-Generated Summary

PDF395February 11, 2025