ChatPaper.aiChatPaper

より強力な正規化不要のトランスフォーマー

Stronger Normalization-Free Transformers

December 11, 2025
著者: Mingzhi Chen, Taiming Lu, Jiachen Zhu, Mingjie Sun, Zhuang Liu
cs.AI

要旨

正規化層は長らく深学習アーキテクチャの必須構成要素と見なされてきたが、近年導入されたDynamic Tanh(DyT)は代替手法の可能性を示した。点単位関数であるDyTは安定した収束のために極端な値を制約し、正規化レベルの性能を達成する。本研究はこれを超える関数設計をさらに探求する。まず点単位関数の内在的特性が学習と性能に与える影響を分析し、これらの知見に基づいてより効果的な関数設計の大規模探索を実施する。この探求を通じて、Derf(x) = erf(αx + s)(erf(x)は再スケーリングされたガウス累積分布関数)を導入し、最も高性能な設計として同定した。Derfは、画像認識・生成を含む視覚領域、音声表現、DNA配列モデリングなど広範な領域でLayerNorm、RMSNorm、DyTを凌駕する。Derfの性能向上は、より強力なフィッティング能力ではなく、改善された汎化性能に由来することが示唆される。その簡潔さと優れた性能により、Derfは正規化不要のTransformerアーキテクチャにおける実用的な選択肢となる。
English
Although normalization layers have long been viewed as indispensable components of deep learning architectures, the recent introduction of Dynamic Tanh (DyT) has demonstrated that alternatives are possible. The point-wise function DyT constrains extreme values for stable convergence and reaches normalization-level performance; this work seeks further for function designs that can surpass it. We first study how the intrinsic properties of point-wise functions influence training and performance. Building on these findings, we conduct a large-scale search for a more effective function design. Through this exploration, we introduce Derf(x) = erf(αx + s), where erf(x) is the rescaled Gaussian cumulative distribution function, and identify it as the most performant design. Derf outperforms LayerNorm, RMSNorm, and DyT across a wide range of domains, including vision (image recognition and generation), speech representation, and DNA sequence modeling. Our findings suggest that the performance gains of Derf largely stem from its improved generalization rather than stronger fitting capacity. Its simplicity and stronger performance make Derf a practical choice for normalization-free Transformer architectures.
PDF61December 13, 2025