ChatPaper.aiChatPaper

Проклятие глубины в больших языковых моделях

The Curse of Depth in Large Language Models

February 9, 2025
Авторы: Wenfang Sun, Xinyuan Song, Pengxiang Li, Lu Yin, Yefeng Zheng, Shiwei Liu
cs.AI

Аннотация

В данной статье мы представляем Курс Глубины, концепцию, которая выделяет, объясняет и решает недавнее наблюдение в современных больших языковых моделях (LLM), где почти половина слоев менее эффективна, чем ожидалось. Сначала мы подтверждаем широкое распространение этого явления среди наиболее популярных семейств LLM, таких как Ллама, Мистраль, ДипСик, и Квен. Наш анализ, как теоретический, так и эмпирический, выявляет, что основной причиной неэффективности глубоких слоев в LLM является широкое использование Предварительной Нормализации Слоя (Pre-LN). В то время как Pre-LN стабилизирует обучение трансформерных LLM, дисперсия его выхода экспоненциально растет с глубиной модели, что нежелательно приводит к тому, что производная глубоких блоков трансформера становится единичной матрицей и, следовательно, практически не способствует обучению. Для преодоления этого недостатка обучения мы предлагаем Масштабирование Нормализации Слоя, которое масштабирует дисперсию выхода нормализации слоя обратно пропорционально квадратному корню его глубины. Это простое изменение смягчает взрыв дисперсии выхода более глубоких слоев трансформера, улучшая их вклад. Наши экспериментальные результаты, охватывающие размеры моделей от 130 миллионов до 1 миллиарда, демонстрируют, что Масштабирование Нормализации Слоя значительно улучшает производительность предварительного обучения LLM по сравнению с Pre-LN. Более того, это улучшение плавно переносится на надзорное дообучение. Все эти приросты можно объяснить тем, что Масштабирование Нормализации Слоя позволяет более глубоким слоям эффективнее вносить свой вклад во время обучения.
English
In this paper, we introduce the Curse of Depth, a concept that highlights, explains, and addresses the recent observation in modern Large Language Models(LLMs) where nearly half of the layers are less effective than expected. We first confirm the wide existence of this phenomenon across the most popular families of LLMs such as Llama, Mistral, DeepSeek, and Qwen. Our analysis, theoretically and empirically, identifies that the underlying reason for the ineffectiveness of deep layers in LLMs is the widespread usage of Pre-Layer Normalization (Pre-LN). While Pre-LN stabilizes the training of Transformer LLMs, its output variance exponentially grows with the model depth, which undesirably causes the derivative of the deep Transformer blocks to be an identity matrix, and therefore barely contributes to the training. To resolve this training pitfall, we propose LayerNorm Scaling, which scales the variance of output of the layer normalization inversely by the square root of its depth. This simple modification mitigates the output variance explosion of deeper Transformer layers, improving their contribution. Our experimental results, spanning model sizes from 130M to 1B, demonstrate that LayerNorm Scaling significantly enhances LLM pre-training performance compared to Pre-LN. Moreover, this improvement seamlessly carries over to supervised fine-tuning. All these gains can be attributed to the fact that LayerNorm Scaling enables deeper layers to contribute more effectively during training.

Summary

AI-Generated Summary

PDF395February 11, 2025