ChatPaper.aiChatPaper

Post-LayerNorm est de retour : Stable, Expressif et Profond

Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

January 27, 2026
papers.authors: Chen Chen, Lai Wei
cs.AI

papers.abstract

L'extensibilité des grands modèles de langage (LLM) atteint ses limites. L'élargissement des modèles produit des rendements décroissants, et l'extension de la longueur de contexte n'améliore pas l'expressivité fondamentale. En revanche, la mise à l'échelle en profondeur offre une expressivité théoriquement supérieure, mais les architectures Transformer actuelles peinent à s'entraîner de manière fiable à des profondeurs extrêmes. Nous revisitons la formulation Post-LayerNorm (Post-LN), dont l'instabilité à grande échelle a causé son remplacement par Pre-LN dans les LLM modernes. Nous montrons que le principal mode d'échec de Post-LN provient de la voie résiduelle de type ResNet, qui introduit un problème de gradient qui s'évanouit dans les réseaux profonds. Nous présentons Keel, un Transformer Post-LN qui remplace cette voie résiduelle par une connexion de type Highway. Cette modification préserve le flux du gradient à travers la branche résiduelle, empêchant l'évanouissement du signal des couches supérieures vers les couches inférieures. Contrairement aux méthodes antérieures, Keel permet un entraînement stable à des profondeurs extrêmes sans nécessiter d'initialisation spécialisée ou de techniques d'optimisation complexes. Keel s'entraîne robustement à des profondeurs dépassant 1000 couches et améliore constamment la perplexité et les caractéristiques de mise à l'échelle en profondeur par rapport à Pre-LN. Ces résultats indiquent que Post-LN, associé à une connexion de type Highway, constitue une base simple et efficace pour construire des LLM profondément extensibles, ouvrant la possibilité à de futures architectures à profondeur infinie.
English
Large language model (LLM) scaling is hitting a wall. Widening models yields diminishing returns, and extending context length does not improve fundamental expressivity. In contrast, depth scaling offers theoretically superior expressivity, yet current Transformer architectures struggle to train reliably at extreme depths. We revisit the Post-LayerNorm (Post-LN) formulation, whose instability at scale caused its replacement by Pre-LN in modern LLMs. We show that the central failure mode of Post-LN arises from the ResNet-style residual pathway, which introduces gradient vanishing in deep networks. We present Keel, a Post-LN Transformer that replaces this residual path with a Highway-style connection. This modification preserves the gradient flow through the residual branch, preventing signal vanishing from the top layers to the bottom. Unlike prior methods, Keel enables stable training at extreme depths without requiring specialized initialization or complex optimization tricks. Keel trains robustly at depths exceeding 1000 layers and consistently improves perplexity and depth-scaling characteristics over Pre-LN. These findings indicate that Post-LN, when paired with a Highway-style connection, provides a simple and effective foundation for building deeply scalable LLMs, opening the possibility for future infinite-depth architectures.
PDF82January 29, 2026