Pós-LayerNorm Está de Volta: Estável, Expressivo e Profundo

Resumo

A escalabilidade de grandes modelos de linguagem (LLMs) está a encontrar um limite. Aumentar a largura dos modelos produz retornos decrescentes, e estender o comprimento do contexto não melhora a expressividade fundamental. Em contraste, a escalabilidade em profundidade oferece uma expressividade teoricamente superior, no entanto, as arquiteturas atuais de Transformers têm dificuldade em treinar de forma confiável em profundidades extremas. Revisitamos a formulação Post-LayerNorm (Post-LN), cuja instabilidade em larga escala causou a sua substituição por Pre-LN nos LLMs modernos. Mostramos que o modo de falha central do Post-LN surge do caminho residual no estilo ResNet, que introduz o desaparecimento do gradiente em redes profundas. Apresentamos o Keel, um Transformer Post-LN que substitui este caminho residual por uma conexão no estilo Highway. Esta modificação preserva o fluxo do gradiente através do ramo residual, impedindo o desaparecimento do sinal das camadas superiores para as inferiores. Ao contrário de métodos anteriores, o Keel permite um treino estável em profundidades extremas sem necessitar de inicialização especializada ou truques de otimização complexos. O Keel treina de forma robusta a profundidades superiores a 1000 camadas e melhora consistentemente a perplexidade e as características de escalabilidade em profundidade em relação ao Pre-LN. Estes resultados indicam que o Post-LN, quando emparelhado com uma conexão no estilo Highway, fornece uma base simples e eficaz para a construção de LLMs profundamente escaláveis, abrindo a possibilidade para futuras arquiteturas de profundidade infinita.

English

Large language model (LLM) scaling is hitting a wall. Widening models yields diminishing returns, and extending context length does not improve fundamental expressivity. In contrast, depth scaling offers theoretically superior expressivity, yet current Transformer architectures struggle to train reliably at extreme depths. We revisit the Post-LayerNorm (Post-LN) formulation, whose instability at scale caused its replacement by Pre-LN in modern LLMs. We show that the central failure mode of Post-LN arises from the ResNet-style residual pathway, which introduces gradient vanishing in deep networks. We present Keel, a Post-LN Transformer that replaces this residual path with a Highway-style connection. This modification preserves the gradient flow through the residual branch, preventing signal vanishing from the top layers to the bottom. Unlike prior methods, Keel enables stable training at extreme depths without requiring specialized initialization or complex optimization tricks. Keel trains robustly at depths exceeding 1000 layers and consistently improves perplexity and depth-scaling characteristics over Pre-LN. These findings indicate that Post-LN, when paired with a Highway-style connection, provides a simple and effective foundation for building deeply scalable LLMs, opening the possibility for future infinite-depth architectures.

Pós-LayerNorm Está de Volta: Estável, Expressivo e Profundo

Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

Resumo

Support