Adaptation de l'Attention par Fenêtre Glissante

papers.abstract

Le mécanisme d'auto-attention dans les modèles de langage de grande taille (LLM) basés sur Transformer présente une complexité quadratique par rapport à la longueur de l'entrée, rendant l'inférence en contexte long coûteuse. L'attention par fenêtre glissante (SWA) réduit ce coût à une complexité linéaire, mais son activation naïve et complète lors de l'inférence pour des modèles pré-entraînés avec l'attention complète (FA) entraîne une dégradation sévère des performances en contexte long, en raison d'un décalage entraînement-inférence. Cela nous amène à nous demander : Les LLM pré-entraînés avec FA peuvent-ils être bien adaptés à la SWA sans nouveau pré-entraînement ? Nous étudions cette question en proposant l'Adaptation par Attention à Fenêtre Glissante (SWAA), un ensemble de méthodes pratiques combinant cinq approches pour une meilleure adaptation : (1) appliquer la SWA uniquement pendant le pré-remplissage ; (2) préserver les jetons "puits" ; (3) entrelacer les couches FA/SWA ; (4) la réflexion en chaîne (CoT) ; et (5) le réglage fin. Nos expériences montrent que l'adaptation à la SWA est réalisable mais non triviale : aucune méthode unique ne suffit, mais des combinaisons synergiques spécifiques restaurent efficacement les performances originales en contexte long. Nous analysons en outre les compromis performance-efficacité des différentes configurations SWAA et fournissons des combinaisons recommandées pour divers scénarios. Notre code est disponible à l'adresse https://github.com/yuyijiong/sliding-window-attention-adaptation.

English

The self-attention mechanism in Transformer-based Large Language Models (LLMs) scales quadratically with input length, making long-context inference expensive. Sliding window attention (SWA) reduces this cost to linear complexity, but naively enabling complete SWA at inference-time for models pretrained with full attention (FA) causes severe long-context performance degradation due to training-inference mismatch. This makes us wonder: Can FA-pretrained LLMs be well adapted to SWA without pretraining? We investigate this by proposing Sliding Window Attention Adaptation (SWAA), a set of practical recipes that combine five methods for better adaptation: (1) applying SWA only during prefilling; (2) preserving "sink" tokens; (3) interleaving FA/SWA layers; (4) chain-of-thought (CoT); and (5) fine-tuning. Our experiments show that SWA adaptation is feasible while non-trivial: no single method suffices, yet specific synergistic combinations effectively recover the original long-context performance. We further analyze the performance-efficiency trade-offs of different SWAA configurations and provide recommended recipes for diverse scenarios. Our code is available at https://github.com/yuyijiong/sliding-window-attention-adaptation