ChatPaper.aiChatPaper

Post-LayerNorm의 귀환: 안정적이고 표현력이 뛰어나며 깊은 구조

Post-LayerNorm Is Back: Stable, ExpressivE, and Deep

January 27, 2026
저자: Chen Chen, Lai Wei
cs.AI

초록

대규모 언어 모델(LLM)의 규모 확장에 한계가 도달하고 있습니다. 모델의 폭을 넓히는 것은 수익 체감을 가져오며, 컨텍스트 길이를 연장하더라도 근본적인 표현력은 향상되지 않습니다. 이와 대조적으로, 깊이 확장은 이론적으로 더 우수한 표현력을 제공하지만, 현재의 트랜스포머 아키텍처는 극단적인 깊이에서 안정적으로 학습하는 데 어려움을 겪습니다. 본 연구는 현대 LLM에서 Pre-LN으로 대체된 이유인 대규모 학습 시 불안정성을 보였던 Post-LayerNorm(Post-LN) 구성을 재검토합니다. 우리는 Post-LN의 핵심 실패 모드가 ResNet 스타일의 잔차 경로에서 비롯되며, 이는 심층 네트워크에서 그래디언트 소실을 유발함을 보여줍니다. 우리는 이 잔차 경로를 Highway 스타일 연결로 대체하는 Post-LN 트랜스포머인 Keel을 제시합니다. 이 수정을 통해 잔차 분기를 통한 그래디언트 흐름이 유지되어 상위 계층에서 하위 계층으로의 신호 소실을 방지합니다. 기존 방법과 달리 Keel은 특수한 초기화나 복잡한 최적화 기법 없이도 극단적인 깊이에서 안정적인 학습을 가능하게 합니다. Keel은 1000개가 넘는 계층 깊이에서도 강건하게 학습되며, Pre-LN 대비 지속적으로 낮은 퍼플렉서티와 향상된 깊이 확장 특성을 보여줍니다. 이러한 결과는 Post-LN이 Highway 스타일 연결과 결합될 경우, 심층 확장 가능한 LLM 구축을 위한 간단하면서도 효과적인 기반을 제공하여 향후 무한 깊이 아키텍처의 가능성을 열어줌을 시사합니다.
English
Large language model (LLM) scaling is hitting a wall. Widening models yields diminishing returns, and extending context length does not improve fundamental expressivity. In contrast, depth scaling offers theoretically superior expressivity, yet current Transformer architectures struggle to train reliably at extreme depths. We revisit the Post-LayerNorm (Post-LN) formulation, whose instability at scale caused its replacement by Pre-LN in modern LLMs. We show that the central failure mode of Post-LN arises from the ResNet-style residual pathway, which introduces gradient vanishing in deep networks. We present Keel, a Post-LN Transformer that replaces this residual path with a Highway-style connection. This modification preserves the gradient flow through the residual branch, preventing signal vanishing from the top layers to the bottom. Unlike prior methods, Keel enables stable training at extreme depths without requiring specialized initialization or complex optimization tricks. Keel trains robustly at depths exceeding 1000 layers and consistently improves perplexity and depth-scaling characteristics over Pre-LN. These findings indicate that Post-LN, when paired with a Highway-style connection, provides a simple and effective foundation for building deeply scalable LLMs, opening the possibility for future infinite-depth architectures.
PDF82January 29, 2026