Post-LayerNorm Is Terug: Stabiel, Expressief en Diep

Samenvatting

Het schalen van grote taalmodel-architecturen (LLM's) bereikt een plafond. Het verbreden van modellen levert afnemende meeropbrengsten op, en het verlengen van de contextlengte verbetert de fundamentele expressiviteit niet. Daarentegen biedt diepteschaling theoretisch superieure expressiviteit, maar huidige Transformer-architecturen hebben moeite om betrouwbaar te trainen op extreme dieptes. Wij herbezien de Post-LayerNorm (Post-LN) formulering, wiens instabiliteit op schaal leidde tot vervanging door Pre-LN in moderne LLM's. Wij tonen aan dat de centrale foutmodus van Post-LN ontstaat door het ResNet-stijl restpad, dat gradientverval introduceert in diepe netwerken. Wij presenteren Keel, een Post-LN Transformer die dit restpad vervangt door een Highway-stijl verbinding. Deze aanpassing behoudt de gradientstroom door de resttak, waardoor signaalverval van de bovenste naar de onderste lagen wordt voorkomen. In tegenstelling tot eerdere methoden maakt Keel stabiele training op extreme dieptes mogelijk zonder gespecialiseerde initialisatie of complexe optimalisatietrucs. Keel traint robuust op dieptes van meer dan 1000 lagen en verbetert consistent de perplexiteit en diepteschalingskenmerken ten opzichte van Pre-LN. Deze bevindingen geven aan dat Post-LN, in combinatie met een Highway-stijl verbinding, een eenvoudige en effectieve basis biedt voor het bouwen van diep schaalbare LLM's, wat de mogelijkheid opent voor toekomstige oneindig-diepe architecturen.

English

Large language model (LLM) scaling is hitting a wall. Widening models yields diminishing returns, and extending context length does not improve fundamental expressivity. In contrast, depth scaling offers theoretically superior expressivity, yet current Transformer architectures struggle to train reliably at extreme depths. We revisit the Post-LayerNorm (Post-LN) formulation, whose instability at scale caused its replacement by Pre-LN in modern LLMs. We show that the central failure mode of Post-LN arises from the ResNet-style residual pathway, which introduces gradient vanishing in deep networks. We present Keel, a Post-LN Transformer that replaces this residual path with a Highway-style connection. This modification preserves the gradient flow through the residual branch, preventing signal vanishing from the top layers to the bottom. Unlike prior methods, Keel enables stable training at extreme depths without requiring specialized initialization or complex optimization tricks. Keel trains robustly at depths exceeding 1000 layers and consistently improves perplexity and depth-scaling characteristics over Pre-LN. These findings indicate that Post-LN, when paired with a Highway-style connection, provides a simple and effective foundation for building deeply scalable LLMs, opening the possibility for future infinite-depth architectures.

Post-LayerNorm Is Terug: Stabiel, Expressief en Diep

Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

Samenvatting

Support