Incorporation de l'encodage de position de Fourier : Amélioration de l'extension périodique de l'attention pour la généralisation de longueurFourier Position Embedding: Enhancing Attention's Periodic Extension for
Length Generalization
Étendre la longueur du contexte des Modèles de Langage (LMs) en améliorant l'Incrustation de Position Rotative (RoPE) est devenu une tendance. Alors que les travaux existants abordent principalement les limitations de RoPE au sein du mécanisme d'attention, cet article fournit une analyse sur presque toutes les parties des LMs, mettant en lumière leurs effets néfastes sur la généralisation de longueur pour l'attention basée sur RoPE. En utilisant la théorie du Traitement du Signal Discret, nous montrons que RoPE permet une attention périodique en réalisant implicitement une Transformée de Fourier Discrète Non-Uniforme. Cependant, cette périodicité est compromise par les dommages spectraux causés par : 1) les couches linéaires et les fonctions d'activation en dehors de l'attention ; 2) les composantes de fréquence insuffisamment entraînées induites par la troncature dans le domaine temporel. S'appuyant sur nos observations, nous proposons l'Incrustation de Position Fourier (FoPE), qui améliore les propriétés du domaine fréquentiel de l'attention pour améliorer à la fois son extension périodique et sa généralisation de longueur. FoPE construit des Séries de Fourier et annule les composantes de fréquence destructrices, augmentant la robustesse du modèle contre les dommages spectraux. Des expériences sur diverses échelles de modèle montrent que, dans des fenêtres de contexte variables, FoPE peut maintenir une perplexité plus stable et une précision plus cohérente dans une tâche de recherche d'aiguille dans une botte de foin par rapport à RoPE et ALiBi. Plusieurs analyses et ablations apportent un soutien supplémentaire à notre méthode et à notre modélisation théorique.