Fourier-Positions-Einbettung: Verbesserung der periodischen Erweiterung der Aufmerksamkeit für die Generalisierung der Länge
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
December 23, 2024
Autoren: Ermo Hua, Che Jiang, Xingtai Lv, Kaiyan Zhang, Ning Ding, Youbang Sun, Biqing Qi, Yuchen Fan, Xue Kai Zhu, Bowen Zhou
cs.AI
Zusammenfassung
Die Erweiterung der Kontextlänge von Sprachmodellen (LMs) durch die Verbesserung der Rotierenden Positions-Einbettung (RoPE) ist zu einem Trend geworden. Während bestehende Arbeiten hauptsächlich die Grenzen von RoPE innerhalb des Aufmerksamkeitsmechanismus ansprechen, liefert dieses Papier eine Analyse nahezu aller Teile von LMs und deckt deren nachteilige Auswirkungen auf die Längenverallgemeinerung für die auf RoPE basierende Aufmerksamkeit auf. Unter Verwendung der Theorie der Diskreten Signalverarbeitung zeigen wir, dass RoPE periodische Aufmerksamkeit ermöglicht, indem sie implizit die Nicht-Uniforme Diskrete Fourier-Transformation erreicht. Diese Periodizität wird jedoch durch den spektralen Schaden untergraben, der durch 1) lineare Schichten und Aktivierungsfunktionen außerhalb der Aufmerksamkeit und 2) unzureichend trainierte Frequenzkomponenten verursacht wird, die durch die Zeitbereichstrunkierung entstehen. Basierend auf unseren Beobachtungen schlagen wir die Fourier-Positions-Einbettung (FoPE) vor, die die frequenzdomäneneigenschaften der Aufmerksamkeit verbessert, um sowohl ihre periodische Erweiterung als auch die Längenverallgemeinerung zu verbessern. FoPE konstruiert Fourier-Reihen und eliminiert die zerstörerischen Frequenzkomponenten, um die Modellrobustheit gegenüber dem spektralen Schaden zu erhöhen. Experimente über verschiedene Modellskalen zeigen, dass FoPE in verschiedenen Kontextfenstern eine stabilere Perplexität aufrechterhalten kann und in einer Nadel-im-Heuhaufen-Aufgabe im Vergleich zu RoPE und ALiBi eine konsistentere Genauigkeit aufweist. Mehrere Analysen und Ablationen stützen unsere Methode und theoretische Modellierung weiter.
English
Extending the context length of Language Models (LMs) by improving Rotary
Position Embedding (RoPE) has become a trend. While existing works mainly
address RoPE's limitations within attention mechanism, this paper provides an
analysis across nearly all parts of LMs, uncovering their adverse effects on
length generalization for RoPE-based attention. Using Discrete Signal
Processing theory, we show that RoPE enables periodic attention by implicitly
achieving Non-Uniform Discrete Fourier Transform. However, this periodicity is
undermined by the spectral damage caused by: 1) linear layers and activation
functions outside of attention; 2) insufficiently trained frequency components
brought by time-domain truncation. Building on our observations, we propose
Fourier Position Embedding (FoPE), which enhances attention's frequency-domain
properties to improve both its periodic extension and length generalization.
FoPE constructs Fourier Series and zero-outs the destructive frequency
components, increasing model robustness against the spectrum damage.
Experiments across various model scales show that, within varying context
windows, FoPE can maintain a more stable perplexity and a more consistent
accuracy in a needle-in-haystack task compared to RoPE and ALiBi. Several
analyses and ablations bring further support to our method and theoretical
modeling.Summary
AI-Generated Summary