Adaptación de Atención por Ventana Deslizante

Resumen

El mecanismo de autoatención en los Modelos de Lenguaje Grandes (LLM) basados en Transformers escala cuadráticamente con la longitud de la entrada, lo que hace que la inferencia de contexto largo sea costosa. La atención de ventana deslizante (SWA) reduce este costo a una complejidad lineal, pero habilitar SWA completa de forma ingenua durante la inferencia para modelos preentrenados con atención completa (FA) causa una severa degradación del rendimiento en contextos largos debido a la discrepancia entre entrenamiento e inferencia. Esto nos lleva a preguntarnos: ¿Pueden los LLM preentrenados con FA adaptarse bien a SWA sin un nuevo preentrenamiento? Investigamos esto proponiendo la Adaptación de Atención de Ventana Deslizante (SWAA), un conjunto de recetas prácticas que combinan cinco métodos para una mejor adaptación: (1) aplicar SWA solo durante la fase de prefilling; (2) preservar tokens "sumidero"; (3) intercalar capas FA/SWA; (4) cadena de pensamiento (CoT); y (5) ajuste fino. Nuestros experimentos muestran que la adaptación a SWA es viable pero no trivial: ningún método individual es suficiente, sin embargo, combinaciones sinérgicas específicas recuperan efectivamente el rendimiento original en contextos largos. Además, analizamos las compensaciones entre rendimiento y eficiencia de las diferentes configuraciones SWAA y proporcionamos recetas recomendadas para diversos escenarios. Nuestro código está disponible en https://github.com/yuyijiong/sliding-window-attention-adaptation.

English

The self-attention mechanism in Transformer-based Large Language Models (LLMs) scales quadratically with input length, making long-context inference expensive. Sliding window attention (SWA) reduces this cost to linear complexity, but naively enabling complete SWA at inference-time for models pretrained with full attention (FA) causes severe long-context performance degradation due to training-inference mismatch. This makes us wonder: Can FA-pretrained LLMs be well adapted to SWA without pretraining? We investigate this by proposing Sliding Window Attention Adaptation (SWAA), a set of practical recipes that combine five methods for better adaptation: (1) applying SWA only during prefilling; (2) preserving "sink" tokens; (3) interleaving FA/SWA layers; (4) chain-of-thought (CoT); and (5) fine-tuning. Our experiments show that SWA adaptation is feasible while non-trivial: no single method suffices, yet specific synergistic combinations effectively recover the original long-context performance. We further analyze the performance-efficiency trade-offs of different SWAA configurations and provide recommended recipes for diverse scenarios. Our code is available at https://github.com/yuyijiong/sliding-window-attention-adaptation