Fourier Positie-embedding: Het verbeteren van de periodieke uitbreiding van aandacht voor lengtegeneralisatie
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
December 23, 2024
Auteurs: Ermo Hua, Che Jiang, Xingtai Lv, Kaiyan Zhang, Ning Ding, Youbang Sun, Biqing Qi, Yuchen Fan, Xue Kai Zhu, Bowen Zhou
cs.AI
Samenvatting
Het verlengen van de contextlengte van Taalmodellen (LM's) door de Rotary Position Embedding (RoPE) te verbeteren, is een trend geworden. Terwijl bestaande werken voornamelijk de beperkingen van RoPE binnen het aandachtsmechanisme aanpakken, biedt dit artikel een analyse over bijna alle onderdelen van LM's, waarbij hun nadelige effecten op lengtegeneralisatie voor op RoPE gebaseerde aandacht worden blootgelegd. Met behulp van de theorie van Discrete Signaalverwerking tonen we aan dat RoPE periodieke aandacht mogelijk maakt door impliciet de Non-Uniform Discrete Fourier-Transformatie te bereiken. Echter, deze periodieke eigenschap wordt ondermijnd door de spectrale schade veroorzaakt door: 1) lineaire lagen en activatiefuncties buiten de aandacht; 2) onvoldoende getrainde frequentiecomponenten veroorzaakt door tijdsdomeintruncatie. Voortbouwend op onze observaties stellen we Fourier Position Embedding (FoPE) voor, die de frequentiedomeineigenschappen van de aandacht verbetert om zowel de periodieke uitbreiding als de lengtegeneralisatie te verbeteren. FoPE construeert Fourierreeksen en elimineert de schadelijke frequentiecomponenten, waardoor de modelrobustheid tegen spectrumschade toeneemt. Experimenten op verschillende modelschalen tonen aan dat, binnen variërende contextvensters, FoPE een stabielere perplexiteit kan handhaven en een consistenter nauwkeurigheidsniveau kan behalen in een naald-in-een-hooibergtaak in vergelijking met RoPE en ALiBi. Diverse analyses en ablaties bieden verdere ondersteuning voor onze methode en theoretische modellering.
English
Extending the context length of Language Models (LMs) by improving Rotary
Position Embedding (RoPE) has become a trend. While existing works mainly
address RoPE's limitations within attention mechanism, this paper provides an
analysis across nearly all parts of LMs, uncovering their adverse effects on
length generalization for RoPE-based attention. Using Discrete Signal
Processing theory, we show that RoPE enables periodic attention by implicitly
achieving Non-Uniform Discrete Fourier Transform. However, this periodicity is
undermined by the spectral damage caused by: 1) linear layers and activation
functions outside of attention; 2) insufficiently trained frequency components
brought by time-domain truncation. Building on our observations, we propose
Fourier Position Embedding (FoPE), which enhances attention's frequency-domain
properties to improve both its periodic extension and length generalization.
FoPE constructs Fourier Series and zero-outs the destructive frequency
components, increasing model robustness against the spectrum damage.
Experiments across various model scales show that, within varying context
windows, FoPE can maintain a more stable perplexity and a more consistent
accuracy in a needle-in-haystack task compared to RoPE and ALiBi. Several
analyses and ablations bring further support to our method and theoretical
modeling.Summary
AI-Generated Summary