Adattamento dell'Attenzione a Finestra Scorrevole
Sliding Window Attention Adaptation
December 11, 2025
Autori: Yijiong Yu, Jiale Liu, Qingyun Wu, Huazheng Wang, Ji Pei
cs.AI
Abstract
Il meccanismo di self-attention nei modelli linguistici di grandi dimensioni (LLM) basati su Transformer scala quadraticamente con la lunghezza dell'input, rendendo costosa l'inferenza su contesti lunghi. L'attenzione a finestra scorrevole (SWA) riduce questo costo a una complessità lineare, ma abilitare ingenuamente la SWA completa durante l'inferenza per modelli preaddestrati con attenzione completa (FA) causa un grave deterioramento delle prestazioni su contesti lunghi a causa di una discrepanza tra addestramento e inferenza. Ciò ci porta a chiederci: è possibile adattare efficacemente LLM preaddestrati con FA alla SWA senza un nuovo preaddestramento? Investigiamo questa possibilità proponendo Sliding Window Attention Adaptation (SWAA), un insieme di ricette pratiche che combinano cinque metodi per un migliore adattamento: (1) applicare la SWA solo durante la fase di prefilling; (2) preservare i token "sink"; (3) intervallare strati FA/SWA; (4) chain-of-thought (CoT); e (5) fine-tuning. I nostri esperimenti mostrano che l'adattamento alla SWA è fattibile ma non banale: nessun singolo metodo è sufficiente, eppure specifiche combinazioni sinergiche recuperano efficacemente le prestazioni originali su contesti lunghi. Analizziamo inoltre i compromessi prestazione-efficienza delle diverse configurazioni SWAA e forniamo ricette raccomandate per scenari diversi. Il nostro codice è disponibile all'indirizzo https://github.com/yuyijiong/sliding-window-attention-adaptation.
English
The self-attention mechanism in Transformer-based Large Language Models (LLMs) scales quadratically with input length, making long-context inference expensive. Sliding window attention (SWA) reduces this cost to linear complexity, but naively enabling complete SWA at inference-time for models pretrained with full attention (FA) causes severe long-context performance degradation due to training-inference mismatch. This makes us wonder: Can FA-pretrained LLMs be well adapted to SWA without pretraining? We investigate this by proposing Sliding Window Attention Adaptation (SWAA), a set of practical recipes that combine five methods for better adaptation: (1) applying SWA only during prefilling; (2) preserving "sink" tokens; (3) interleaving FA/SWA layers; (4) chain-of-thought (CoT); and (5) fine-tuning. Our experiments show that SWA adaptation is feasible while non-trivial: no single method suffices, yet specific synergistic combinations effectively recover the original long-context performance. We further analyze the performance-efficiency trade-offs of different SWAA configurations and provide recommended recipes for diverse scenarios. Our code is available at https://github.com/yuyijiong/sliding-window-attention-adaptation