ChatPaper.aiChatPaper

Transformateurs plus robustes sans normalisation

Stronger Normalization-Free Transformers

December 11, 2025
papers.authors: Mingzhi Chen, Taiming Lu, Jiachen Zhu, Mingjie Sun, Zhuang Liu
cs.AI

papers.abstract

Bien que les couches de normalisation aient longtemps été considérées comme des composants indispensables des architectures d'apprentissage profond, l'introduction récente de la fonction tangente hyperbolique dynamique (DyT) a démontré que des alternatives étaient possibles. La fonction ponctuelle DyT contraint les valeurs extrêmes pour une convergence stable et atteint des performances équivalentes à celles d'une normalisation ; ce travail explore plus avant les conceptions de fonctions susceptibles de la surpasser. Nous étudions d'abord comment les propriétés intrinsèques des fonctions ponctuelles influencent l'apprentissage et les performances. En nous appuyant sur ces résultats, nous menons une recherche à grande échelle pour une conception de fonction plus efficace. À travers cette exploration, nous présentons Derf(x) = erf(αx + s), où erf(x) est la fonction de répartition gaussienne redimensionnée, et l'identifions comme la conception la plus performante. Derf surpasse LayerNorm, RMSNorm et DyT dans un large éventail de domaines, incluant la vision (reconnaissance et génération d'images), la représentation de la parole et la modélisation de séquences d'ADN. Nos résultats suggèrent que les gains de performance de Derf découlent largement d'une meilleure généralisation plutôt que d'une capacité d'ajustement supérieure. Sa simplicité et ses performances renforcées font de Derf un choix pratique pour les architectures de Transformers sans normalisation.
English
Although normalization layers have long been viewed as indispensable components of deep learning architectures, the recent introduction of Dynamic Tanh (DyT) has demonstrated that alternatives are possible. The point-wise function DyT constrains extreme values for stable convergence and reaches normalization-level performance; this work seeks further for function designs that can surpass it. We first study how the intrinsic properties of point-wise functions influence training and performance. Building on these findings, we conduct a large-scale search for a more effective function design. Through this exploration, we introduce Derf(x) = erf(αx + s), where erf(x) is the rescaled Gaussian cumulative distribution function, and identify it as the most performant design. Derf outperforms LayerNorm, RMSNorm, and DyT across a wide range of domains, including vision (image recognition and generation), speech representation, and DNA sequence modeling. Our findings suggest that the performance gains of Derf largely stem from its improved generalization rather than stronger fitting capacity. Its simplicity and stronger performance make Derf a practical choice for normalization-free Transformer architectures.
PDF61December 13, 2025