正規化なしのトランスフォーマーTransformers without Normalization
正規化層は現代のニューラルネットワークにおいて遍在し、長らく不可欠とされてきました。本研究では、驚くほどシンプルな手法を用いることで、正規化なしのTransformerが同等またはそれ以上の性能を達成できることを示します。我々は、正規化層の代替として、要素ごとの操作であるDynamic Tanh(DyT)を導入します。DyT(x) = tanh(alpha x) という形式で、Transformerにおける正規化層の代替として使用できます。DyTは、Transformerにおける層正規化がしばしばtanhのようなS字型の入出力マッピングを生成するという観察に基づいています。DyTを組み込むことで、正規化なしのTransformerは、その正規化された対応モデルと同等またはそれ以上の性能を達成でき、ほとんどの場合ハイパーパラメータの調整を必要としません。我々は、認識から生成、教師あり学習から自己教師あり学習、コンピュータビジョンから言語モデルまで、多様な設定においてDyTを組み込んだTransformerの有効性を検証します。これらの発見は、正規化層が現代のニューラルネットワークにおいて不可欠であるという従来の理解に挑戦し、深層ネットワークにおけるその役割について新たな洞察を提供します。