SLA2: Sparse-Lineare Attention mit lernbarem Routing und QAT
SLA2: Sparse-Linear Attention with Learnable Routing and QAT
February 13, 2026
Autoren: Jintao Zhang, Haoxu Wang, Kai Jiang, Kaiwen Zheng, Youhe Jiang, Ion Stoica, Jianfei Chen, Jun Zhu, Joseph E. Gonzalez
cs.AI
Zusammenfassung
Sparse-Linear Attention (SLA) kombiniert sparse und lineare Attention, um Diffusionsmodelle zu beschleunigen, und hat starke Leistung in der Videogenerierung gezeigt. Allerdings (i) basiert SLA auf einer heuristischen Aufteilung, die Berechnungen basierend auf der Größe der Attention-Gewichte dem sparse- oder linear-Zweig zuweist, was suboptimal sein kann. Zusätzlich (ii) identifizieren wir nach einer formalen Analyse des Attention-Fehlers in SLA eine Diskrepanz zwischen SLA und einer direkten Zerlegung in sparse und lineare Attention. Wir schlagen SLA2 vor, das (I) einen erlernbaren Router einführt, der dynamisch auswählt, ob jede Attention-Berechnung sparse oder lineare Attention verwenden soll, (II) eine treuere und direktere Formulierung für sparse-lineare Attention bereitstellt, die ein erlernbares Verhältnis zur Kombination der sparse- und linear-Attention-Zweige nutzt, und (III) ein sparse + low-bit Attention-Design, bei dem low-bit Attention durch quantisierungsbewusstes Fine-Tuning eingeführt wird, um den Quantisierungsfehler zu reduzieren. Experimente zeigen, dass SLA2 bei Videodiffusionsmodellen eine Attention-Sparsity von 97 % erreichen und eine 18,6-fache Beschleunigung der Attention bei gleichbleibender Generierungsqualität liefern kann.
English
Sparse-Linear Attention (SLA) combines sparse and linear attention to accelerate diffusion models and has shown strong performance in video generation. However, (i) SLA relies on a heuristic split that assigns computations to the sparse or linear branch based on attention-weight magnitude, which can be suboptimal. Additionally, (ii) after formally analyzing the attention error in SLA, we identify a mismatch between SLA and a direct decomposition into sparse and linear attention. We propose SLA2, which introduces (I) a learnable router that dynamically selects whether each attention computation should use sparse or linear attention, (II) a more faithful and direct sparse-linear attention formulation that uses a learnable ratio to combine the sparse and linear attention branches, and (III) a sparse + low-bit attention design, where low-bit attention is introduced via quantization-aware fine-tuning to reduce quantization error. Experiments show that on video diffusion models, SLA2 can achieve 97% attention sparsity and deliver an 18.6x attention speedup while preserving generation quality.