SLA2: Atenção Linear Esparsa com Roteamento Aprendizável e QAT
SLA2: Sparse-Linear Attention with Learnable Routing and QAT
February 13, 2026
Autores: Jintao Zhang, Haoxu Wang, Kai Jiang, Kaiwen Zheng, Youhe Jiang, Ion Stoica, Jianfei Chen, Jun Zhu, Joseph E. Gonzalez
cs.AI
Resumo
O Sparse-Linear Attention (SLA) combina atenção esparsa e linear para acelerar modelos de difusão e tem demonstrado um desempenho robusto na geração de vídeos. No entanto, (i) o SLA depende de uma divisão heurística que atribui os cálculos ao ramo esparso ou linear com base na magnitude dos pesos de atenção, o que pode ser subótimo. Adicionalmente, (ii) após uma análise formal do erro de atenção no SLA, identificamos uma incompatibilidade entre o SLA e uma decomposição direta em atenção esparsa e linear. Propomos o SLA2, que introduz (I) um roteador aprendível que seleciona dinamicamente se cada cálculo de atenção deve usar atenção esparsa ou linear, (II) uma formulação de atenção esparsa-linear mais fiel e direta, que utiliza um rácio aprendível para combinar os ramos de atenção esparsa e linear, e (III) um desenho de atenção esparsa + baixos bits, onde a atenção de baixos bits é introduzida através de *fine-tuning* com consciência da quantização para reduzir o erro de quantização. Experiências mostram que, em modelos de difusão de vídeo, o SLA2 pode alcançar 97% de esparsidade de atenção e proporcionar uma aceleração de 18,6x na atenção, preservando a qualidade da geração.
English
Sparse-Linear Attention (SLA) combines sparse and linear attention to accelerate diffusion models and has shown strong performance in video generation. However, (i) SLA relies on a heuristic split that assigns computations to the sparse or linear branch based on attention-weight magnitude, which can be suboptimal. Additionally, (ii) after formally analyzing the attention error in SLA, we identify a mismatch between SLA and a direct decomposition into sparse and linear attention. We propose SLA2, which introduces (I) a learnable router that dynamically selects whether each attention computation should use sparse or linear attention, (II) a more faithful and direct sparse-linear attention formulation that uses a learnable ratio to combine the sparse and linear attention branches, and (III) a sparse + low-bit attention design, where low-bit attention is introduced via quantization-aware fine-tuning to reduce quantization error. Experiments show that on video diffusion models, SLA2 can achieve 97% attention sparsity and deliver an 18.6x attention speedup while preserving generation quality.