Das Fluch der Tiefe in großen Sprachmodellen

papers.abstract

In diesem Paper stellen wir den Fluch der Tiefe vor, ein Konzept, das die kürzlich beobachtete Erscheinung in modernen Large Language Models (LLMs) hervorhebt, erklärt und angeht, bei der fast die Hälfte der Schichten weniger effektiv ist als erwartet. Wir bestätigen zunächst die weit verbreitete Existenz dieses Phänomens in den beliebtesten Familien von LLMs wie Llama, Mistral, DeepSeek und Qwen. Unsere Analyse identifiziert theoretisch und empirisch, dass der zugrunde liegende Grund für die Ineffektivität tiefer Schichten in LLMs die weit verbreitete Verwendung der Pre-Layer Normalization (Pre-LN) ist. Während Pre-LN das Training von Transformer LLMs stabilisiert, wächst die Ausgabenvielfalt exponentiell mit der Modelltiefe, was dazu führt, dass die Ableitung der tiefen Transformer-Blöcke eine Identitätsmatrix ist und daher kaum zum Training beiträgt. Um diesen Trainingsnachteil zu beheben, schlagen wir LayerNorm Scaling vor, das die Varianz der Ausgabe der Schichtnormalisierung umgekehrt durch die Quadratwurzel ihrer Tiefe skaliert. Diese einfache Modifikation mildert die Ausgabenvielfaltsexplosion tieferer Transformer-Schichten und verbessert ihren Beitrag. Unsere experimentellen Ergebnisse, die Modellgrößen von 130M bis 1B umfassen, zeigen, dass LayerNorm Scaling die LLM-Vortrainingsleistung im Vergleich zu Pre-LN signifikant verbessert. Darüber hinaus überträgt sich diese Verbesserung nahtlos auf das überwachte Feintuning. All diese Gewinne können darauf zurückgeführt werden, dass LayerNorm Scaling es tieferen Schichten ermöglicht, während des Trainings effektiver beizutragen.

English

In this paper, we introduce the Curse of Depth, a concept that highlights, explains, and addresses the recent observation in modern Large Language Models(LLMs) where nearly half of the layers are less effective than expected. We first confirm the wide existence of this phenomenon across the most popular families of LLMs such as Llama, Mistral, DeepSeek, and Qwen. Our analysis, theoretically and empirically, identifies that the underlying reason for the ineffectiveness of deep layers in LLMs is the widespread usage of Pre-Layer Normalization (Pre-LN). While Pre-LN stabilizes the training of Transformer LLMs, its output variance exponentially grows with the model depth, which undesirably causes the derivative of the deep Transformer blocks to be an identity matrix, and therefore barely contributes to the training. To resolve this training pitfall, we propose LayerNorm Scaling, which scales the variance of output of the layer normalization inversely by the square root of its depth. This simple modification mitigates the output variance explosion of deeper Transformer layers, improving their contribution. Our experimental results, spanning model sizes from 130M to 1B, demonstrate that LayerNorm Scaling significantly enhances LLM pre-training performance compared to Pre-LN. Moreover, this improvement seamlessly carries over to supervised fine-tuning. All these gains can be attributed to the fact that LayerNorm Scaling enables deeper layers to contribute more effectively during training.

Das Fluch der Tiefe in großen Sprachmodellen

The Curse of Depth in Large Language Models

papers.abstract

Support