Incorporation de l'encodage de position de Fourier : Amélioration de l'extension périodique de l'attention pour la généralisation de longueur
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
December 23, 2024
Auteurs: Ermo Hua, Che Jiang, Xingtai Lv, Kaiyan Zhang, Ning Ding, Youbang Sun, Biqing Qi, Yuchen Fan, Xue Kai Zhu, Bowen Zhou
cs.AI
Résumé
Étendre la longueur du contexte des Modèles de Langage (LMs) en améliorant l'Incrustation de Position Rotative (RoPE) est devenu une tendance. Alors que les travaux existants abordent principalement les limitations de RoPE au sein du mécanisme d'attention, cet article fournit une analyse sur presque toutes les parties des LMs, mettant en lumière leurs effets néfastes sur la généralisation de longueur pour l'attention basée sur RoPE. En utilisant la théorie du Traitement du Signal Discret, nous montrons que RoPE permet une attention périodique en réalisant implicitement une Transformée de Fourier Discrète Non-Uniforme. Cependant, cette périodicité est compromise par les dommages spectraux causés par : 1) les couches linéaires et les fonctions d'activation en dehors de l'attention ; 2) les composantes de fréquence insuffisamment entraînées induites par la troncature dans le domaine temporel. S'appuyant sur nos observations, nous proposons l'Incrustation de Position Fourier (FoPE), qui améliore les propriétés du domaine fréquentiel de l'attention pour améliorer à la fois son extension périodique et sa généralisation de longueur. FoPE construit des Séries de Fourier et annule les composantes de fréquence destructrices, augmentant la robustesse du modèle contre les dommages spectraux. Des expériences sur diverses échelles de modèle montrent que, dans des fenêtres de contexte variables, FoPE peut maintenir une perplexité plus stable et une précision plus cohérente dans une tâche de recherche d'aiguille dans une botte de foin par rapport à RoPE et ALiBi. Plusieurs analyses et ablations apportent un soutien supplémentaire à notre méthode et à notre modélisation théorique.
English
Extending the context length of Language Models (LMs) by improving Rotary
Position Embedding (RoPE) has become a trend. While existing works mainly
address RoPE's limitations within attention mechanism, this paper provides an
analysis across nearly all parts of LMs, uncovering their adverse effects on
length generalization for RoPE-based attention. Using Discrete Signal
Processing theory, we show that RoPE enables periodic attention by implicitly
achieving Non-Uniform Discrete Fourier Transform. However, this periodicity is
undermined by the spectral damage caused by: 1) linear layers and activation
functions outside of attention; 2) insufficiently trained frequency components
brought by time-domain truncation. Building on our observations, we propose
Fourier Position Embedding (FoPE), which enhances attention's frequency-domain
properties to improve both its periodic extension and length generalization.
FoPE constructs Fourier Series and zero-outs the destructive frequency
components, increasing model robustness against the spectrum damage.
Experiments across various model scales show that, within varying context
windows, FoPE can maintain a more stable perplexity and a more consistent
accuracy in a needle-in-haystack task compared to RoPE and ALiBi. Several
analyses and ablations bring further support to our method and theoretical
modeling.Summary
AI-Generated Summary