SLA2: Разреженно-линейное внимание с обучаемой маршрутизацией и квантованием (QAT)
SLA2: Sparse-Linear Attention with Learnable Routing and QAT
February 13, 2026
Авторы: Jintao Zhang, Haoxu Wang, Kai Jiang, Kaiwen Zheng, Youhe Jiang, Ion Stoica, Jianfei Chen, Jun Zhu, Joseph E. Gonzalez
cs.AI
Аннотация
Разреженно-линейное внимание (SLA) объединяет разреженное и линейное внимание для ускорения диффузионных моделей и показало высокую производительность в генерации видео. Однако (i) SLA опирается на эвристическое разделение, которое распределяет вычисления между разреженной или линейной ветвью на основе величины весов внимания, что может быть неоптимальным. Кроме того, (ii) после формального анализа ошибки внимания в SLA мы выявляем несоответствие между SLA и прямым разложением на разреженное и линейное внимание. Мы предлагаем SLA2, который вводит (I) обучаемый маршрутизатор, динамически выбирающий, должна ли каждая операция внимания использовать разреженное или линейное внимание, (II) более точную и прямую формулировку разреженно-линейного внимания, использующую обучаемый коэффициент для объединения разреженной и линейной ветвей внимания, и (III) дизайн разреженного + низкобитного внимания, где низкобитное внимание вводится посредством квантизационно-осознанной тонкой настройки для снижения ошибки квантования. Эксперименты показывают, что в диффузионных моделях для видео SLA2 позволяет достичь 97% разреженности внимания и обеспечивает ускорение внимания в 18,6 раз при сохранении качества генерации.
English
Sparse-Linear Attention (SLA) combines sparse and linear attention to accelerate diffusion models and has shown strong performance in video generation. However, (i) SLA relies on a heuristic split that assigns computations to the sparse or linear branch based on attention-weight magnitude, which can be suboptimal. Additionally, (ii) after formally analyzing the attention error in SLA, we identify a mismatch between SLA and a direct decomposition into sparse and linear attention. We propose SLA2, which introduces (I) a learnable router that dynamically selects whether each attention computation should use sparse or linear attention, (II) a more faithful and direct sparse-linear attention formulation that uses a learnable ratio to combine the sparse and linear attention branches, and (III) a sparse + low-bit attention design, where low-bit attention is introduced via quantization-aware fine-tuning to reduce quantization error. Experiments show that on video diffusion models, SLA2 can achieve 97% attention sparsity and deliver an 18.6x attention speedup while preserving generation quality.