SLA2: Atención Lineal Dispersa con Enrutamiento Aprendible y Cuantización-Aware Training
SLA2: Sparse-Linear Attention with Learnable Routing and QAT
February 13, 2026
Autores: Jintao Zhang, Haoxu Wang, Kai Jiang, Kaiwen Zheng, Youhe Jiang, Ion Stoica, Jianfei Chen, Jun Zhu, Joseph E. Gonzalez
cs.AI
Resumen
La Atención Dispersa-Lineal (SLA) combina la atención dispersa y lineal para acelerar los modelos de difusión y ha mostrado un rendimiento sólido en la generación de vídeo. Sin embargo, (i) la SLA se basa en una división heurística que asigna los cálculos a la rama dispersa o lineal según la magnitud de los pesos de atención, lo que puede ser subóptimo. Además, (ii) tras analizar formalmente el error de atención en SLA, identificamos un desajuste entre la SLA y una descomposición directa en atención dispersa y lineal. Proponemos SLA2, que introduce (I) un enrutador entrenable que selecciona dinámicamente si cada cálculo de atención debe usar atención dispersa o lineal, (II) una formulación de atención dispersa-lineal más fiel y directa que utiliza una proporción entrenable para combinar las ramas de atención dispersa y lineal, y (III) un diseño de atención dispersa + de bajo bits, donde la atención de bajo bits se introduce mediante ajuste fino con conciencia de cuantización para reducir el error de cuantización. Los experimentos muestran que, en modelos de difusión de vídeo, SLA2 puede alcanzar un 97% de dispersión en la atención y ofrecer una aceleración de la atención de 18.6x, preservando la calidad de la generación.
English
Sparse-Linear Attention (SLA) combines sparse and linear attention to accelerate diffusion models and has shown strong performance in video generation. However, (i) SLA relies on a heuristic split that assigns computations to the sparse or linear branch based on attention-weight magnitude, which can be suboptimal. Additionally, (ii) after formally analyzing the attention error in SLA, we identify a mismatch between SLA and a direct decomposition into sparse and linear attention. We propose SLA2, which introduces (I) a learnable router that dynamically selects whether each attention computation should use sparse or linear attention, (II) a more faithful and direct sparse-linear attention formulation that uses a learnable ratio to combine the sparse and linear attention branches, and (III) a sparse + low-bit attention design, where low-bit attention is introduced via quantization-aware fine-tuning to reduce quantization error. Experiments show that on video diffusion models, SLA2 can achieve 97% attention sparsity and deliver an 18.6x attention speedup while preserving generation quality.