Post-LayerNorm возвращается: стабильность, выразительность и глубина
Post-LayerNorm Is Back: Stable, ExpressivE, and Deep
January 27, 2026
Авторы: Chen Chen, Lai Wei
cs.AI
Аннотация
Масштабирование больших языковых моделей (LLM) упирается в предел. Увеличение ширины моделей дает diminishing returns, а расширение длины контекста не улучшает фундаментальную экспрессивность. В отличие от этого, масштабирование по глубине теоретически обеспечивает превосходную экспрессивность, однако современные архитектуры Transformer не позволяют надежно обучать модели на экстремальных глубинах. Мы возвращаемся к формулировке Post-LayerNorm (Post-LN), нестабильность которой в крупном масштабе привела к ее замене на Pre-LN в современных LLM. Мы показываем, что ключевая проблема Post-LN возникает из-за остаточного пути в стиле ResNet, который вызывает исчезновение градиента в глубоких сетях. Мы представляем Keel — Transformer с Post-LN, который заменяет этот остаточный путь на соединение в стиле Highway. Это изменение сохраняет поток градиента через остаточную ветвь, предотвращая исчезновение сигнала от верхних слоев к нижним. В отличие от предыдущих методов, Keel позволяет стабильно обучать модели на экстремальных глубинах без необходимости специализированной инициализации или сложных оптимизационных приемов. Keel надежно обучается на глубинах свыше 1000 слоев и последовательно улучшает перплексию и характеристики масштабирования по глубине по сравнению с Pre-LN. Эти результаты указывают на то, что Post-LN в сочетании с соединением в стиле Highway предоставляет простую и эффективную основу для построения глубоко масштабируемых LLM, открывая возможность создания будущих архитектур с бесконечной глубиной.
English
Large language model (LLM) scaling is hitting a wall. Widening models yields diminishing returns, and extending context length does not improve fundamental expressivity. In contrast, depth scaling offers theoretically superior expressivity, yet current Transformer architectures struggle to train reliably at extreme depths. We revisit the Post-LayerNorm (Post-LN) formulation, whose instability at scale caused its replacement by Pre-LN in modern LLMs. We show that the central failure mode of Post-LN arises from the ResNet-style residual pathway, which introduces gradient vanishing in deep networks. We present Keel, a Post-LN Transformer that replaces this residual path with a Highway-style connection. This modification preserves the gradient flow through the residual branch, preventing signal vanishing from the top layers to the bottom. Unlike prior methods, Keel enables stable training at extreme depths without requiring specialized initialization or complex optimization tricks. Keel trains robustly at depths exceeding 1000 layers and consistently improves perplexity and depth-scaling characteristics over Pre-LN. These findings indicate that Post-LN, when paired with a Highway-style connection, provides a simple and effective foundation for building deeply scalable LLMs, opening the possibility for future infinite-depth architectures.