Позиционное вложение Фурье: улучшение периодического расширения внимания для обобщения по длине.
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
December 23, 2024
Авторы: Ermo Hua, Che Jiang, Xingtai Lv, Kaiyan Zhang, Ning Ding, Youbang Sun, Biqing Qi, Yuchen Fan, Xue Kai Zhu, Bowen Zhou
cs.AI
Аннотация
Увеличение длины контекста моделей языка (LMs) путем улучшения вращающегося позиционного вложения (RoPE) стало тенденцией. В то время как существующие работы в основном решают ограничения RoPE в рамках механизма внимания, настоящая статья предоставляет анализ почти всех частей LMs, раскрывая их негативное влияние на обобщение длины для внимания на основе RoPE. Используя теорию дискретной обработки сигналов, мы показываем, что RoPE позволяет периодическое внимание, неявно достигая Неравномерного Дискретного Преобразования Фурье. Однако эту периодичность подрывает спектральное повреждение, вызванное: 1) линейными слоями и функциями активации вне внимания; 2) недостаточно обученными частотными компонентами, привнесенными усечением по временной области. Основываясь на наших наблюдениях, мы предлагаем Позиционное Вложение Фурье (FoPE), которое улучшает частотные свойства внимания для улучшения как его периодического расширения, так и обобщения длины. FoPE строит ряды Фурье и обнуляет разрушительные частотные компоненты, увеличивая устойчивость модели к спектральному повреждению. Эксперименты на различных масштабах моделей показывают, что в различных окнах контекста FoPE может поддерживать более стабильную перплексию и более последовательную точность в задаче поиска иголки в стоге по сравнению с RoPE и ALiBi. Несколько анализов и абляций приносят дополнительную поддержку нашему методу и теоретическому моделированию.
English
Extending the context length of Language Models (LMs) by improving Rotary
Position Embedding (RoPE) has become a trend. While existing works mainly
address RoPE's limitations within attention mechanism, this paper provides an
analysis across nearly all parts of LMs, uncovering their adverse effects on
length generalization for RoPE-based attention. Using Discrete Signal
Processing theory, we show that RoPE enables periodic attention by implicitly
achieving Non-Uniform Discrete Fourier Transform. However, this periodicity is
undermined by the spectral damage caused by: 1) linear layers and activation
functions outside of attention; 2) insufficiently trained frequency components
brought by time-domain truncation. Building on our observations, we propose
Fourier Position Embedding (FoPE), which enhances attention's frequency-domain
properties to improve both its periodic extension and length generalization.
FoPE constructs Fourier Series and zero-outs the destructive frequency
components, increasing model robustness against the spectrum damage.
Experiments across various model scales show that, within varying context
windows, FoPE can maintain a more stable perplexity and a more consistent
accuracy in a needle-in-haystack task compared to RoPE and ALiBi. Several
analyses and ablations bring further support to our method and theoretical
modeling.Summary
AI-Generated Summary