Позиционное вложение Фурье: улучшение периодического расширения внимания для обобщения по длине.Fourier Position Embedding: Enhancing Attention's Periodic Extension for
Length Generalization
Увеличение длины контекста моделей языка (LMs) путем улучшения вращающегося позиционного вложения (RoPE) стало тенденцией. В то время как существующие работы в основном решают ограничения RoPE в рамках механизма внимания, настоящая статья предоставляет анализ почти всех частей LMs, раскрывая их негативное влияние на обобщение длины для внимания на основе RoPE. Используя теорию дискретной обработки сигналов, мы показываем, что RoPE позволяет периодическое внимание, неявно достигая Неравномерного Дискретного Преобразования Фурье. Однако эту периодичность подрывает спектральное повреждение, вызванное: 1) линейными слоями и функциями активации вне внимания; 2) недостаточно обученными частотными компонентами, привнесенными усечением по временной области. Основываясь на наших наблюдениях, мы предлагаем Позиционное Вложение Фурье (FoPE), которое улучшает частотные свойства внимания для улучшения как его периодического расширения, так и обобщения длины. FoPE строит ряды Фурье и обнуляет разрушительные частотные компоненты, увеличивая устойчивость модели к спектральному повреждению. Эксперименты на различных масштабах моделей показывают, что в различных окнах контекста FoPE может поддерживать более стабильную перплексию и более последовательную точность в задаче поиска иголки в стоге по сравнению с RoPE и ALiBi. Несколько анализов и абляций приносят дополнительную поддержку нашему методу и теоретическому моделированию.