Post-LayerNorm è di ritorno: Stabile, Espressivo e Profondo

Abstract

La scalabilità dei grandi modelli linguistici (LLM) sta raggiungendo un limite. L'ampliamento dei modelli produce rendimenti decrescenti e l'estensione della lunghezza del contesto non migliora l'espressività fondamentale. Al contrario, la scalabilità in profondità offre un'espressività teoricamente superiore, eppure le attuali architetture Transformer faticano ad addestrarsi in modo affidabile a profondità estreme. Riconsideriamo la formulazione Post-LayerNorm (Post-LN), la cui instabilità su larga scala ne ha causato la sostituzione con la Pre-LN nei moderni LLM. Dimostriamo che la principale modalità di fallimento della Post-LN deriva dal percorso residuo in stile ResNet, che introduce lo scomparsa del gradiente nelle reti profonde. Presentiamo Keel, un Transformer Post-LN che sostituisce questo percorso residuo con una connessione in stile Highway. Questa modifica preserva il flusso del gradiente attraverso il ramo residuo, prevenendo la scomparsa del segnale dagli strati superiori a quelli inferiori. A differenza dei metodi precedenti, Keel consente un addestramento stabile a profondità estreme senza richiedere inizializzazioni specializzate o complessi trucchi di ottimizzazione. Keel si addestra in modo robusto a profondità superiori a 1000 livelli e migliora costantemente la perplessità e le caratteristiche di scalabilità in profondità rispetto alla Pre-LN. Questi risultati indicano che la Post-LN, se abbinata a una connessione in stile Highway, fornisce una base semplice ed efficace per costruire LLM profondamente scalabili, aprendo la possibilità per future architetture a profondità infinita.

English

Large language model (LLM) scaling is hitting a wall. Widening models yields diminishing returns, and extending context length does not improve fundamental expressivity. In contrast, depth scaling offers theoretically superior expressivity, yet current Transformer architectures struggle to train reliably at extreme depths. We revisit the Post-LayerNorm (Post-LN) formulation, whose instability at scale caused its replacement by Pre-LN in modern LLMs. We show that the central failure mode of Post-LN arises from the ResNet-style residual pathway, which introduces gradient vanishing in deep networks. We present Keel, a Post-LN Transformer that replaces this residual path with a Highway-style connection. This modification preserves the gradient flow through the residual branch, preventing signal vanishing from the top layers to the bottom. Unlike prior methods, Keel enables stable training at extreme depths without requiring specialized initialization or complex optimization tricks. Keel trains robustly at depths exceeding 1000 layers and consistently improves perplexity and depth-scaling characteristics over Pre-LN. These findings indicate that Post-LN, when paired with a Highway-style connection, provides a simple and effective foundation for building deeply scalable LLMs, opening the possibility for future infinite-depth architectures.

Post-LayerNorm è di ritorno: Stabile, Espressivo e Profondo

Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

Abstract

Support