Aanpassing van Schuifvenster-attentie

Samenvatting

Het zelf-attentiemechanisme in Transformer-gebaseerde Large Language Models (LLM's) schaalt kwadratisch met de invoerlengte, waardoor inferentie met lange contexten kostbaar is. Schuifvenster-attentie (SWA) reduceert deze kosten tot lineaire complexiteit, maar het naïef inschakelen van volledige SWA tijdens inferentie voor modellen die zijn voorgetraind met volledige attentie (FA) leidt tot ernstige prestatievermindering bij lange contexten vanwege een mismatch tussen training en inferentie. Dit doet ons afvragen: Kunnen FA-voorgetrainde LLM's goed worden aangepast aan SWA zonder hertraining? Wij onderzoeken dit door Sliding Window Attention Adaptation (SWAA) voor te stellen, een set praktische methoden die vijf technieken combineert voor betere adaptatie: (1) SWA alleen toepassen tijdens prefilling; (2) behoud van "sink"-tokens; (3) interleaving van FA/SWA-lagen; (4) chain-of-thought (CoT); en (5) fine-tuning. Onze experimenten tonen aan dat SWA-adaptatie haalbaar maar niet triviaal is: geen enkele methode volstaat, maar specifieke synergetische combinaties herstellen effectief de oorspronkelijke prestaties bij lange contexten. Wij analyseren verder de prestatie-efficiëntieafwegingen van verschillende SWAA-configuraties en bieden aanbevolen methoden voor diverse scenario's. Onze code is beschikbaar op https://github.com/yuyijiong/sliding-window-attention-adaptation.

English

The self-attention mechanism in Transformer-based Large Language Models (LLMs) scales quadratically with input length, making long-context inference expensive. Sliding window attention (SWA) reduces this cost to linear complexity, but naively enabling complete SWA at inference-time for models pretrained with full attention (FA) causes severe long-context performance degradation due to training-inference mismatch. This makes us wonder: Can FA-pretrained LLMs be well adapted to SWA without pretraining? We investigate this by proposing Sliding Window Attention Adaptation (SWAA), a set of practical recipes that combine five methods for better adaptation: (1) applying SWA only during prefilling; (2) preserving "sink" tokens; (3) interleaving FA/SWA layers; (4) chain-of-thought (CoT); and (5) fine-tuning. Our experiments show that SWA adaptation is feasible while non-trivial: no single method suffices, yet specific synergistic combinations effectively recover the original long-context performance. We further analyze the performance-efficiency trade-offs of different SWAA configurations and provide recommended recipes for diverse scenarios. Our code is available at https://github.com/yuyijiong/sliding-window-attention-adaptation