트랜스포머는 점진적인 랭크 증가를 통해 학습한다.
Transformers learn through gradual rank increase
June 12, 2023
저자: Enric Boix-Adsera, Etai Littwin, Emmanuel Abbe, Samy Bengio, Joshua Susskind
cs.AI
초록
우리는 트랜스포머에서 점진적 학습 역학을 확인했는데, 이는 훈련된 가중치와 초기 가중치 간의 차이가 점점 더 높은 랭크를 갖도록 증가하는 현상을 말합니다. 우리는 이 현상이 대각선 가중치 행렬과 작은 초기화라는 단순화된 가정 하에서 발생함을 엄밀하게 증명했습니다. 우리의 실험은 이 이론을 뒷받침하며, 이러한 현상이 단순화된 가정 없이도 실제로 발생할 수 있음을 보여줍니다.
English
We identify incremental learning dynamics in transformers, where the
difference between trained and initial weights progressively increases in rank.
We rigorously prove this occurs under the simplifying assumptions of diagonal
weight matrices and small initialization. Our experiments support the theory
and also show that phenomenon can occur in practice without the simplifying
assumptions.