Anpassung der Sliding-Window-Aufmerksamkeit

papers.abstract

Der Selbstaufmerksamkeitsmechanismus (Self-Attention) in Transformer-basierten Large Language Models (LLMs) skaliert quadratisch mit der Eingabelänge, was Inferenz mit langen Kontexten rechenintensiv macht. Sliding Window Attention (SWA) reduziert diese Kosten auf lineare Komplexität. Die naive Aktivierung einer vollständigen SWA zur Inferenzzeit bei Modellen, die mit Full Attention (FA) vortrainiert wurden, führt jedoch aufgrund eines Trainings-Inferenz-Mismatches zu erheblichen Leistungseinbußen bei langen Kontexten. Dies wirft die Frage auf: Können FA-vortrainierte LLMs gut an SWA angepasst werden, ohne erneut vortrainieren zu müssen? Wir untersuchen dies mit Sliding Window Attention Adaptation (SWAA), einer Sammlung praktischer Methoden, die fünf Ansätze für eine bessere Anpassung kombiniert: (1) Anwendung von SWA nur während des Prefillings; (2) Bewahrung von "Sink"-Tokens; (3) Verschachtelung von FA-/SWA-Schichten; (4) Chain-of-Thought (CoT); und (5) Fine-Tuning. Unsere Experimente zeigen, dass eine SWA-Adaption machbar, aber nicht trivial ist: Keine einzelne Methode genügt, doch spezifische synergetische Kombinationen stellen die ursprüngliche Leistung bei langen Kontexten effektiv wieder her. Wir analysieren weiterhin die Leistungs-Effizienz-Kompromisse verschiedener SWAA-Konfigurationen und geben empfohlene Vorgehensweisen für verschiedene Szenarien. Unser Code ist verfügbar unter https://github.com/yuyijiong/sliding-window-attention-adaptation.

English

The self-attention mechanism in Transformer-based Large Language Models (LLMs) scales quadratically with input length, making long-context inference expensive. Sliding window attention (SWA) reduces this cost to linear complexity, but naively enabling complete SWA at inference-time for models pretrained with full attention (FA) causes severe long-context performance degradation due to training-inference mismatch. This makes us wonder: Can FA-pretrained LLMs be well adapted to SWA without pretraining? We investigate this by proposing Sliding Window Attention Adaptation (SWAA), a set of practical recipes that combine five methods for better adaptation: (1) applying SWA only during prefilling; (2) preserving "sink" tokens; (3) interleaving FA/SWA layers; (4) chain-of-thought (CoT); and (5) fine-tuning. Our experiments show that SWA adaptation is feasible while non-trivial: no single method suffices, yet specific synergistic combinations effectively recover the original long-context performance. We further analyze the performance-efficiency trade-offs of different SWAA configurations and provide recommended recipes for diverse scenarios. Our code is available at https://github.com/yuyijiong/sliding-window-attention-adaptation