トランスフォーマーは、段階的なランク増加を通じて学習する。
Transformers learn through gradual rank increase
June 12, 2023
著者: Enric Boix-Adsera, Etai Littwin, Emmanuel Abbe, Samy Bengio, Joshua Susskind
cs.AI
要旨
我々は、Transformerモデルにおける漸進的学習ダイナミクスを特定した。そこでは、学習済みの重みと初期重みの差が、ランクを徐々に増加させていく。この現象が、対角重み行列と小さな初期化という簡略化された仮定の下で発生することを厳密に証明した。我々の実験はこの理論を支持するとともに、この現象が簡略化された仮定なしでも実際に起こり得ることを示している。
English
We identify incremental learning dynamics in transformers, where the
difference between trained and initial weights progressively increases in rank.
We rigorously prove this occurs under the simplifying assumptions of diagonal
weight matrices and small initialization. Our experiments support the theory
and also show that phenomenon can occur in practice without the simplifying
assumptions.