Das Fluch der Tiefe in großen Sprachmodellen
The Curse of Depth in Large Language Models
February 9, 2025
Autoren: Wenfang Sun, Xinyuan Song, Pengxiang Li, Lu Yin, Yefeng Zheng, Shiwei Liu
cs.AI
Zusammenfassung
In diesem Paper stellen wir den Fluch der Tiefe vor, ein Konzept, das die kürzlich beobachtete Erscheinung in modernen Large Language Models (LLMs) hervorhebt, erklärt und angeht, bei der fast die Hälfte der Schichten weniger effektiv ist als erwartet. Wir bestätigen zunächst die weit verbreitete Existenz dieses Phänomens in den beliebtesten Familien von LLMs wie Llama, Mistral, DeepSeek und Qwen. Unsere Analyse identifiziert theoretisch und empirisch, dass der zugrunde liegende Grund für die Ineffektivität tiefer Schichten in LLMs die weit verbreitete Verwendung der Pre-Layer Normalization (Pre-LN) ist. Während Pre-LN das Training von Transformer LLMs stabilisiert, wächst die Ausgabenvielfalt exponentiell mit der Modelltiefe, was dazu führt, dass die Ableitung der tiefen Transformer-Blöcke eine Identitätsmatrix ist und daher kaum zum Training beiträgt. Um diesen Trainingsnachteil zu beheben, schlagen wir LayerNorm Scaling vor, das die Varianz der Ausgabe der Schichtnormalisierung umgekehrt durch die Quadratwurzel ihrer Tiefe skaliert. Diese einfache Modifikation mildert die Ausgabenvielfaltsexplosion tieferer Transformer-Schichten und verbessert ihren Beitrag. Unsere experimentellen Ergebnisse, die Modellgrößen von 130M bis 1B umfassen, zeigen, dass LayerNorm Scaling die LLM-Vortrainingsleistung im Vergleich zu Pre-LN signifikant verbessert. Darüber hinaus überträgt sich diese Verbesserung nahtlos auf das überwachte Feintuning. All diese Gewinne können darauf zurückgeführt werden, dass LayerNorm Scaling es tieferen Schichten ermöglicht, während des Trainings effektiver beizutragen.
English
In this paper, we introduce the Curse of Depth, a concept that highlights,
explains, and addresses the recent observation in modern Large Language
Models(LLMs) where nearly half of the layers are less effective than expected.
We first confirm the wide existence of this phenomenon across the most popular
families of LLMs such as Llama, Mistral, DeepSeek, and Qwen. Our analysis,
theoretically and empirically, identifies that the underlying reason for the
ineffectiveness of deep layers in LLMs is the widespread usage of Pre-Layer
Normalization (Pre-LN). While Pre-LN stabilizes the training of Transformer
LLMs, its output variance exponentially grows with the model depth, which
undesirably causes the derivative of the deep Transformer blocks to be an
identity matrix, and therefore barely contributes to the training. To resolve
this training pitfall, we propose LayerNorm Scaling, which scales the variance
of output of the layer normalization inversely by the square root of its depth.
This simple modification mitigates the output variance explosion of deeper
Transformer layers, improving their contribution. Our experimental results,
spanning model sizes from 130M to 1B, demonstrate that LayerNorm Scaling
significantly enhances LLM pre-training performance compared to Pre-LN.
Moreover, this improvement seamlessly carries over to supervised fine-tuning.
All these gains can be attributed to the fact that LayerNorm Scaling enables
deeper layers to contribute more effectively during training.Summary
AI-Generated Summary