Transformers sans normalisationTransformers without Normalization
Les couches de normalisation sont omniprésentes dans les réseaux de neurones modernes et ont longtemps été considérées comme essentielles. Ce travail démontre que les Transformers sans normalisation peuvent atteindre des performances équivalentes ou supérieures grâce à une technique remarquablement simple. Nous introduisons le Dynamic Tanh (DyT), une opération élémentaire DyT(x) = tanh(alpha x), comme substitut direct des couches de normalisation dans les Transformers. DyT s'inspire de l'observation que la normalisation de couche dans les Transformers produit souvent des mappages entrée-sortie en forme de S, similaires à la fonction tanh. En intégrant DyT, les Transformers sans normalisation peuvent égaler ou surpasser les performances de leurs homologues normalisés, généralement sans réglage d'hyperparamètres. Nous validons l'efficacité des Transformers avec DyT dans divers contextes, allant de la reconnaissance à la génération, de l'apprentissage supervisé à l'auto-supervisé, et des modèles de vision par ordinateur aux modèles de langage. Ces résultats remettent en question la compréhension conventionnelle selon laquelle les couches de normalisation sont indispensables dans les réseaux de neurones modernes, et offrent de nouvelles perspectives sur leur rôle dans les réseaux profonds.