A Maldição da Profundidade em Modelos de Linguagem Grandes
The Curse of Depth in Large Language Models
February 9, 2025
Autores: Wenfang Sun, Xinyuan Song, Pengxiang Li, Lu Yin, Yefeng Zheng, Shiwei Liu
cs.AI
Resumo
Neste artigo, introduzimos a Maldição da Profundidade, um conceito que destaca, explica e aborda a observação recente em Modelos de Linguagem Grandes (LLMs) modernos, onde quase metade das camadas são menos eficazes do que o esperado. Primeiramente, confirmamos a ampla existência desse fenômeno nas famílias mais populares de LLMs, como Llama, Mistral, DeepSeek e Qwen. Nossa análise, teórica e empiricamente, identifica que a razão subjacente para a ineficácia das camadas profundas em LLMs é o uso generalizado da Normalização Pré-Camada (Pre-LN). Enquanto a Pre-LN estabiliza o treinamento dos LLMs do tipo Transformer, sua variância de saída cresce exponencialmente com a profundidade do modelo, o que causa indesejavelmente que o derivado dos blocos Transformer profundos seja uma matriz identidade e, portanto, contribua pouco para o treinamento. Para resolver essa armadilha de treinamento, propomos o Dimensionamento da Normalização de Camada, que dimensiona a variância da saída da normalização da camada inversamente pela raiz quadrada de sua profundidade. Essa modificação simples mitiga a explosão da variância de saída das camadas Transformer mais profundas, melhorando sua contribuição. Nossos resultados experimentais, abrangendo tamanhos de modelo de 130M a 1B, demonstram que o Dimensionamento da Normalização de Camada melhora significativamente o desempenho de pré-treinamento de LLMs em comparação com a Pre-LN. Além disso, essa melhoria é transferida de forma transparente para o ajuste fino supervisionado. Todos esses ganhos podem ser atribuídos ao fato de que o Dimensionamento da Normalização de Camada permite que as camadas mais profundas contribuam de forma mais eficaz durante o treinamento.
English
In this paper, we introduce the Curse of Depth, a concept that highlights,
explains, and addresses the recent observation in modern Large Language
Models(LLMs) where nearly half of the layers are less effective than expected.
We first confirm the wide existence of this phenomenon across the most popular
families of LLMs such as Llama, Mistral, DeepSeek, and Qwen. Our analysis,
theoretically and empirically, identifies that the underlying reason for the
ineffectiveness of deep layers in LLMs is the widespread usage of Pre-Layer
Normalization (Pre-LN). While Pre-LN stabilizes the training of Transformer
LLMs, its output variance exponentially grows with the model depth, which
undesirably causes the derivative of the deep Transformer blocks to be an
identity matrix, and therefore barely contributes to the training. To resolve
this training pitfall, we propose LayerNorm Scaling, which scales the variance
of output of the layer normalization inversely by the square root of its depth.
This simple modification mitigates the output variance explosion of deeper
Transformer layers, improving their contribution. Our experimental results,
spanning model sizes from 130M to 1B, demonstrate that LayerNorm Scaling
significantly enhances LLM pre-training performance compared to Pre-LN.
Moreover, this improvement seamlessly carries over to supervised fine-tuning.
All these gains can be attributed to the fact that LayerNorm Scaling enables
deeper layers to contribute more effectively during training.