ChatPaper.aiChatPaper

Post-LayerNorm ist zurück: Stabil, ausdrucksstark und tief.

Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

January 27, 2026
papers.authors: Chen Chen, Lai Wei
cs.AI

papers.abstract

Die Skalierung großer Sprachmodelle (LLM) stößt an eine Grenze. Das Verbreitern von Modellen bringt abnehmende Erträge, und die Verlängerung der Kontextlänge verbessert nicht die grundlegende Ausdrucksfähigkeit. Im Gegensatz dazu bietet die Skalierung in der Tiefe eine theoretisch überlegene Ausdruckskraft, doch aktuelle Transformer-Architekturen lassen sich in extremen Tiefen nur schwer zuverlässig trainieren. Wir untersuchen erneut die Post-LayerNorm (Post-LN)-Formulierung, deren Instabilität bei der Skalierung zu ihrer Ablösung durch Pre-LN in modernen LLMs führte. Wir zeigen, dass das zentrale Versagen von Post-LN aus dem ResNet-artigen Residualpfad resultiert, der bei tiefen Netzen Gradienten-Verschwinden verursacht. Wir stellen Keel vor, einen Post-LN-Transformer, der diesen Residualpfad durch eine Highway-artige Verbindung ersetzt. Diese Modifikation erhält den Gradientenfluss durch den Residualzweig und verhindert das Verschwinden des Signals von den oberen zu den unteren Schichten. Im Gegensatz zu früheren Methoden ermöglicht Keel stabiles Training in extremen Tiefen ohne spezielle Initialisierung oder komplexe Optimierungstricks. Keel trainiert robust bei Tiefen von über 1000 Schichten und verbessert durchgängig die Perplexität und Tiefenskaliereigenschaften gegenüber Pre-LN. Diese Ergebnisse zeigen, dass Post-LN in Kombination mit einer Highway-artigen Verbindung eine einfache und effektive Grundlage für den Aufbau tief skalierbarer LLMs bietet und die Möglichkeit zukünftiger Architekturen mit unendlicher Tiefe eröffnet.
English
Large language model (LLM) scaling is hitting a wall. Widening models yields diminishing returns, and extending context length does not improve fundamental expressivity. In contrast, depth scaling offers theoretically superior expressivity, yet current Transformer architectures struggle to train reliably at extreme depths. We revisit the Post-LayerNorm (Post-LN) formulation, whose instability at scale caused its replacement by Pre-LN in modern LLMs. We show that the central failure mode of Post-LN arises from the ResNet-style residual pathway, which introduces gradient vanishing in deep networks. We present Keel, a Post-LN Transformer that replaces this residual path with a Highway-style connection. This modification preserves the gradient flow through the residual branch, preventing signal vanishing from the top layers to the bottom. Unlike prior methods, Keel enables stable training at extreme depths without requiring specialized initialization or complex optimization tricks. Keel trains robustly at depths exceeding 1000 layers and consistently improves perplexity and depth-scaling characteristics over Pre-LN. These findings indicate that Post-LN, when paired with a Highway-style connection, provides a simple and effective foundation for building deeply scalable LLMs, opening the possibility for future infinite-depth architectures.
PDF82January 29, 2026