Incrustación de Posición de Fourier: Mejorando la Extensión Periódica de la Atención para la Generalización de Longitud
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization
December 23, 2024
Autores: Ermo Hua, Che Jiang, Xingtai Lv, Kaiyan Zhang, Ning Ding, Youbang Sun, Biqing Qi, Yuchen Fan, Xue Kai Zhu, Bowen Zhou
cs.AI
Resumen
Extender la longitud del contexto de los Modelos de Lenguaje (LMs) mejorando la Incrustación de Posición Rotativa (RoPE) se ha convertido en una tendencia. Mientras que los trabajos existentes abordan principalmente las limitaciones de RoPE dentro del mecanismo de atención, este documento proporciona un análisis en casi todas las partes de los LMs, descubriendo sus efectos adversos en la generalización de la longitud para la atención basada en RoPE. Utilizando la teoría del Procesamiento de Señales Discretas, mostramos que RoPE permite la atención periódica al lograr implícitamente la Transformada de Fourier Discreta No Uniforme. Sin embargo, esta periodicidad se ve socavada por el daño espectral causado por: 1) capas lineales y funciones de activación fuera de la atención; 2) componentes de frecuencia insuficientemente entrenados provocados por la truncación en el dominio del tiempo. Basándonos en nuestras observaciones, proponemos la Incrustación de Posición de Fourier (FoPE), que mejora las propiedades de dominio de frecuencia de la atención para mejorar tanto su extensión periódica como la generalización de la longitud. FoPE construye Series de Fourier y elimina los componentes de frecuencia destructivos, aumentando la robustez del modelo contra el daño espectral. Experimentos en diversas escalas de modelos muestran que, dentro de diferentes ventanas de contexto, FoPE puede mantener una perplejidad más estable y una precisión más consistente en una tarea de aguja en un pajar en comparación con RoPE y ALiBi. Varios análisis y abstracciones brindan un mayor respaldo a nuestro método y modelado teórico.
English
Extending the context length of Language Models (LMs) by improving Rotary
Position Embedding (RoPE) has become a trend. While existing works mainly
address RoPE's limitations within attention mechanism, this paper provides an
analysis across nearly all parts of LMs, uncovering their adverse effects on
length generalization for RoPE-based attention. Using Discrete Signal
Processing theory, we show that RoPE enables periodic attention by implicitly
achieving Non-Uniform Discrete Fourier Transform. However, this periodicity is
undermined by the spectral damage caused by: 1) linear layers and activation
functions outside of attention; 2) insufficiently trained frequency components
brought by time-domain truncation. Building on our observations, we propose
Fourier Position Embedding (FoPE), which enhances attention's frequency-domain
properties to improve both its periodic extension and length generalization.
FoPE constructs Fourier Series and zero-outs the destructive frequency
components, increasing model robustness against the spectrum damage.
Experiments across various model scales show that, within varying context
windows, FoPE can maintain a more stable perplexity and a more consistent
accuracy in a needle-in-haystack task compared to RoPE and ALiBi. Several
analyses and ablations bring further support to our method and theoretical
modeling.Summary
AI-Generated Summary