Incorporação de Posição de Fourier: Aprimorando a Extensão Periódica da Atenção para Generalização de ComprimentoFourier Position Embedding: Enhancing Attention's Periodic Extension for
Length Generalization
Aumentar o comprimento do contexto dos Modelos de Linguagem (LMs) ao melhorar a Incorporação de Posição Rotativa (RoPE) tornou-se uma tendência. Enquanto os trabalhos existentes abordam principalmente as limitações de RoPE dentro do mecanismo de atenção, este artigo fornece uma análise abrangente em quase todas as partes dos LMs, revelando seus efeitos adversos na generalização do comprimento para a atenção baseada em RoPE. Utilizando a teoria do Processamento de Sinal Discreto, mostramos que RoPE permite atenção periódica ao alcançar implicitamente a Transformada Discreta de Fourier Não-Uniforme. No entanto, essa periodicidade é prejudicada pelo dano espectral causado por: 1) camadas lineares e funções de ativação fora da atenção; 2) componentes de frequência insuficientemente treinados trazidos pela truncagem no domínio do tempo. Com base em nossas observações, propomos a Incorporação de Posição de Fourier (FoPE), que aprimora as propriedades de domínio de frequência da atenção para melhorar tanto sua extensão periódica quanto a generalização do comprimento. FoPE constrói Séries de Fourier e elimina os componentes de frequência destrutivos, aumentando a robustez do modelo contra o dano espectral. Experimentos em diversas escalas de modelo mostram que, em janelas de contexto variáveis, FoPE pode manter uma perplexidade mais estável e uma precisão mais consistente em uma tarefa de agulha no palheiro em comparação com RoPE e ALiBi. Diversas análises e ablações trazem mais suporte ao nosso método e modelagem teórica.