Adaptação da Atenção por Janela Deslizante

Resumo

O mecanismo de auto-atenção em Modelos de Linguagem Grande (LLMs) baseados em Transformer escala quadraticamente com o comprimento da entrada, tornando a inferência de contexto longo dispendiosa. A atenção por janela deslizante (SWA) reduz este custo para complexidade linear, mas a ativação ingênua de SWA completa durante a inferência em modelos pré-treinados com atenção completa (FA) causa severa degradação de desempenho em contexto longo devido ao desalinhamento treino-inferência. Isto nos leva a questionar: LLMs pré-treinados com FA podem ser bem adaptados à SWA sem novo pré-treinamento? Investigamos isto propondo a Adaptação por Atenção de Janela Deslizante (SWAA), um conjunto de receitas práticas que combina cinco métodos para melhor adaptação: (1) aplicar SWA apenas durante o preenchimento prévio; (2) preservar tokens "âncora"; (3) intercalar camadas FA/SWA; (4) cadeia de pensamento (CoT); e (5) ajuste fino. Nossos experimentos mostram que a adaptação SWA é viável porém não trivial: nenhum método único é suficiente, mas combinações sinérgicas específicas recuperam efetivamente o desempenho original em contexto longo. Analisamos ainda os trade-offs desempenho-eficiência de diferentes configurações SWAA e fornecemos receitas recomendadas para diversos cenários. Nosso código está disponível em https://github.com/yuyijiong/sliding-window-attention-adaptation.

English

The self-attention mechanism in Transformer-based Large Language Models (LLMs) scales quadratically with input length, making long-context inference expensive. Sliding window attention (SWA) reduces this cost to linear complexity, but naively enabling complete SWA at inference-time for models pretrained with full attention (FA) causes severe long-context performance degradation due to training-inference mismatch. This makes us wonder: Can FA-pretrained LLMs be well adapted to SWA without pretraining? We investigate this by proposing Sliding Window Attention Adaptation (SWAA), a set of practical recipes that combine five methods for better adaptation: (1) applying SWA only during prefilling; (2) preserving "sink" tokens; (3) interleaving FA/SWA layers; (4) chain-of-thought (CoT); and (5) fine-tuning. Our experiments show that SWA adaptation is feasible while non-trivial: no single method suffices, yet specific synergistic combinations effectively recover the original long-context performance. We further analyze the performance-efficiency trade-offs of different SWAA configurations and provide recommended recipes for diverse scenarios. Our code is available at https://github.com/yuyijiong/sliding-window-attention-adaptation