Адаптация механизма внимания со скользящим окном

Аннотация

Механизм самовнимания в трансформерных больших языковых моделях (LLM) масштабируется квадратично относительно длины входа, что делает вывод в длинном контексте дорогостоящим. Скользящее оконное внимание (SWA) снижает эту стоимость до линейной сложности, но наивное включение полного SWA во время вывода для моделей, предварительно обученных с полным вниманием (FA), приводит к значительной деградации производительности в длинном контексте из-за несоответствия между обучением и выводом. Это заставляет нас задуматься: можно ли успешно адаптировать LLM, предварительно обученные с FA, к SWA без повторного предварительного обучения? Мы исследуем этот вопрос, предлагая адаптацию скользящего оконного внимания (SWAA) — набор практических методов, объединяющих пять подходов для лучшей адаптации: (1) применение SWA только на этапе предварительного заполнения (prefilling); (2) сохранение «символьных» (sink) токенов; (3) чередование слоев FA/SWA; (4) цепочка рассуждений (CoT); и (5) тонкая настройка (fine-tuning). Наши эксперименты показывают, что адаптация к SWA возможна, но нетривиальна: ни один метод не является достаточным сам по себе, однако определенные синергетические комбинации эффективно восстанавливают исходную производительность в длинном контексте. Мы дополнительно анализируем компромиссы между производительностью и эффективностью для различных конфигураций SWAA и предоставляем рекомендуемые методы для различных сценариев. Наш код доступен по адресу https://github.com/yuyijiong/sliding-window-attention-adaptation.

English

The self-attention mechanism in Transformer-based Large Language Models (LLMs) scales quadratically with input length, making long-context inference expensive. Sliding window attention (SWA) reduces this cost to linear complexity, but naively enabling complete SWA at inference-time for models pretrained with full attention (FA) causes severe long-context performance degradation due to training-inference mismatch. This makes us wonder: Can FA-pretrained LLMs be well adapted to SWA without pretraining? We investigate this by proposing Sliding Window Attention Adaptation (SWAA), a set of practical recipes that combine five methods for better adaptation: (1) applying SWA only during prefilling; (2) preserving "sink" tokens; (3) interleaving FA/SWA layers; (4) chain-of-thought (CoT); and (5) fine-tuning. Our experiments show that SWA adaptation is feasible while non-trivial: no single method suffices, yet specific synergistic combinations effectively recover the original long-context performance. We further analyze the performance-efficiency trade-offs of different SWAA configurations and provide recommended recipes for diverse scenarios. Our code is available at https://github.com/yuyijiong/sliding-window-attention-adaptation