あなたのTransformerは密かに線形であるYour Transformer is Secretly Linear
本論文は、GPT、LLaMA、OPT、BLOOMなどのモデルを含むトランスフォーマーデコーダーに固有の新たな線形特性を明らかにする。我々は連続する層間の埋め込み変換を分析し、ほぼ完璧な線形関係(Procrustes類似度スコア0.99)を発見した。しかし、トランスフォーマー層の出力ノルムが一貫して低いため、残差成分を除去すると線形性が低下する。実験では、トランスフォーマーの最も線形性の高いブロックを除去または線形近似しても、損失やモデルの性能に大きな影響がないことが示された。さらに、小規模モデルでの事前学習実験では、層の線形性を低減することを目的としたコサイン類似度ベースの正則化を導入した。この正則化により、Tiny StoriesやSuperGLUEなどのベンチマークで性能指標が向上し、モデルの線形性の低減にも成功した。本研究は、トランスフォーマーアーキテクチャの従来の理解に疑問を投げかけ、その動作がこれまで考えられていたよりも線形的である可能性を示唆している。