Post-LayerNorm Regresa: Estable, Expresivo y Profundo
Post-LayerNorm Is Back: Stable, ExpressivE, and Deep
January 27, 2026
Autores: Chen Chen, Lai Wei
cs.AI
Resumen
La escalabilidad de los grandes modelos de lenguaje (LLM) está alcanzando un límite. Expandir la amplitud de los modelos produce rendimientos decrecientes, y extender la longitud del contexto no mejora la expresividad fundamental. En contraste, la escalabilidad en profundidad ofrece una expresividad teóricamente superior; sin embargo, las arquitecturas Transformer actuales tienen dificultades para entrenarse de manera confiable a profundidades extremas. Revisamos la formulación Post-LayerNorm (Post-LN), cuya inestabilidad a gran escala causó su reemplazo por Pre-LN en los LLM modernos. Demostramos que el modo de fallo central de Post-LN surge de la ruta residual de estilo ResNet, que introduce el desvanecimiento del gradiente en redes profundas. Presentamos Keel, un Transformer Post-LN que reemplaza esta ruta residual con una conexión de estilo Highway. Esta modificación preserva el flujo del gradiente a través de la rama residual, evitando que la señal se desvanezca desde las capas superiores a las inferiores. A diferencia de métodos anteriores, Keel permite un entrenamiento estable a profundidades extremas sin requerir inicializaciones especializadas o trucos de optimización complejos. Keel se entrena de manera robusta a profundidades que superan las 1000 capas y mejora consistentemente la perplejidad y las características de escalado en profundidad en comparación con Pre-LN. Estos hallazgos indican que Post-LN, cuando se combina con una conexión de estilo Highway, proporciona una base simple y efectiva para construir LLM profundamente escalables, abriendo la posibilidad de futuras arquitecturas de profundidad infinita.
English
Large language model (LLM) scaling is hitting a wall. Widening models yields diminishing returns, and extending context length does not improve fundamental expressivity. In contrast, depth scaling offers theoretically superior expressivity, yet current Transformer architectures struggle to train reliably at extreme depths. We revisit the Post-LayerNorm (Post-LN) formulation, whose instability at scale caused its replacement by Pre-LN in modern LLMs. We show that the central failure mode of Post-LN arises from the ResNet-style residual pathway, which introduces gradient vanishing in deep networks. We present Keel, a Post-LN Transformer that replaces this residual path with a Highway-style connection. This modification preserves the gradient flow through the residual branch, preventing signal vanishing from the top layers to the bottom. Unlike prior methods, Keel enables stable training at extreme depths without requiring specialized initialization or complex optimization tricks. Keel trains robustly at depths exceeding 1000 layers and consistently improves perplexity and depth-scaling characteristics over Pre-LN. These findings indicate that Post-LN, when paired with a Highway-style connection, provides a simple and effective foundation for building deeply scalable LLMs, opening the possibility for future infinite-depth architectures.