フーリエ位置エンベッディング:長さの一般化のための注意の周期的拡張の強化Fourier Position Embedding: Enhancing Attention's Periodic Extension for
Length Generalization
言語モデル(LMs)のコンテキスト長を拡張するために、Rotary Position Embedding(RoPE)を改善することがトレンドとなっています。既存の研究は主に注意メカニズム内のRoPEの制限に焦点を当てていますが、本論文ではLMsのほぼすべての部分にわたる分析を提供し、RoPEベースの注意に対する長さの一般化への悪影響を明らかにしています。離散信号処理理論を用いて、RoPEが非一様離散フーリエ変換を暗黙的に達成することで周期的な注意を可能にすることを示します。しかし、この周期性は、注意以外の線形層や活性化関数によるスペクトルの損傷、および時間領域の切り捨てによってもたらされる訓練不足の周波数成分によって損なわれます。私たちの観察に基づいて、周波数領域の特性を向上させるためにFourier Position Embedding(FoPE)を提案します。FoPEはフーリエ級数を構築し、破壊的な周波数成分をゼロにして、スペクトル損傷に対するモデルの頑健性を向上させます。さまざまなモデルスケールでの実験結果は、さまざまなコンテキストウィンドウ内で、RoPEやALiBiに比べて、FoPEが針の中のハイスタックタスクにおいてより安定した困惑度と一貫した精度を維持できることを示しています。いくつかの分析と削除実験は、私たちの手法と理論モデリングをさらに支持しています。