A Maldição da Profundidade em Modelos de Linguagem Grandes

Resumo

Neste artigo, introduzimos a Maldição da Profundidade, um conceito que destaca, explica e aborda a observação recente em Modelos de Linguagem Grandes (LLMs) modernos, onde quase metade das camadas são menos eficazes do que o esperado. Primeiramente, confirmamos a ampla existência desse fenômeno nas famílias mais populares de LLMs, como Llama, Mistral, DeepSeek e Qwen. Nossa análise, teórica e empiricamente, identifica que a razão subjacente para a ineficácia das camadas profundas em LLMs é o uso generalizado da Normalização Pré-Camada (Pre-LN). Enquanto a Pre-LN estabiliza o treinamento dos LLMs do tipo Transformer, sua variância de saída cresce exponencialmente com a profundidade do modelo, o que causa indesejavelmente que o derivado dos blocos Transformer profundos seja uma matriz identidade e, portanto, contribua pouco para o treinamento. Para resolver essa armadilha de treinamento, propomos o Dimensionamento da Normalização de Camada, que dimensiona a variância da saída da normalização da camada inversamente pela raiz quadrada de sua profundidade. Essa modificação simples mitiga a explosão da variância de saída das camadas Transformer mais profundas, melhorando sua contribuição. Nossos resultados experimentais, abrangendo tamanhos de modelo de 130M a 1B, demonstram que o Dimensionamento da Normalização de Camada melhora significativamente o desempenho de pré-treinamento de LLMs em comparação com a Pre-LN. Além disso, essa melhoria é transferida de forma transparente para o ajuste fino supervisionado. Todos esses ganhos podem ser atribuídos ao fato de que o Dimensionamento da Normalização de Camada permite que as camadas mais profundas contribuam de forma mais eficaz durante o treinamento.

English

In this paper, we introduce the Curse of Depth, a concept that highlights, explains, and addresses the recent observation in modern Large Language Models(LLMs) where nearly half of the layers are less effective than expected. We first confirm the wide existence of this phenomenon across the most popular families of LLMs such as Llama, Mistral, DeepSeek, and Qwen. Our analysis, theoretically and empirically, identifies that the underlying reason for the ineffectiveness of deep layers in LLMs is the widespread usage of Pre-Layer Normalization (Pre-LN). While Pre-LN stabilizes the training of Transformer LLMs, its output variance exponentially grows with the model depth, which undesirably causes the derivative of the deep Transformer blocks to be an identity matrix, and therefore barely contributes to the training. To resolve this training pitfall, we propose LayerNorm Scaling, which scales the variance of output of the layer normalization inversely by the square root of its depth. This simple modification mitigates the output variance explosion of deeper Transformer layers, improving their contribution. Our experimental results, spanning model sizes from 130M to 1B, demonstrate that LayerNorm Scaling significantly enhances LLM pre-training performance compared to Pre-LN. Moreover, this improvement seamlessly carries over to supervised fine-tuning. All these gains can be attributed to the fact that LayerNorm Scaling enables deeper layers to contribute more effectively during training.

A Maldição da Profundidade em Modelos de Linguagem Grandes

The Curse of Depth in Large Language Models

Resumo

Support