SLA2: Attenzione Sparsa-Lineare con Instradamento Apprendibile e QAT

Abstract

L'Attenzione Sparsa-Lineare (SLA) combina l'attenzione sparsa e lineare per accelerare i modelli di diffusione e ha dimostrato prestazioni solide nella generazione video. Tuttavia, (i) la SLA si basa su una divisione euristica che assegna i calcoli al ramo sparso o lineare in base all'ampiezza dei pesi di attenzione, il che può essere subottimale. Inoltre, (ii) dopo aver analizzato formalmente l'errore di attenzione nella SLA, identifichiamo una discrepanza tra la SLA e una scomposizione diretta in attenzione sparsa e lineare. Proponiamo SLA2, che introduce (I) un router apprendibile che seleziona dinamicamente se ogni calcolo di attenzione debba utilizzare l'attenzione sparsa o lineare, (II) una formulazione di attenzione sparsa-lineare più fedele e diretta che utilizza un rapporto apprendibile per combinare i rami di attenzione sparsa e lineare, e (III) un design di attenzione sparsa + a basso bit, dove l'attenzione a basso bit viene introdotta tramite fine-tuning quantizzazione-consapevole per ridurre l'errore di quantizzazione. Gli esperimenti mostrano che, su modelli di diffusione video, SLA2 può raggiungere il 97% di sparsità dell'attenzione e fornire una velocizzazione dell'attenzione di 18.6x preservando la qualità della generazione.

English

Sparse-Linear Attention (SLA) combines sparse and linear attention to accelerate diffusion models and has shown strong performance in video generation. However, (i) SLA relies on a heuristic split that assigns computations to the sparse or linear branch based on attention-weight magnitude, which can be suboptimal. Additionally, (ii) after formally analyzing the attention error in SLA, we identify a mismatch between SLA and a direct decomposition into sparse and linear attention. We propose SLA2, which introduces (I) a learnable router that dynamically selects whether each attention computation should use sparse or linear attention, (II) a more faithful and direct sparse-linear attention formulation that uses a learnable ratio to combine the sparse and linear attention branches, and (III) a sparse + low-bit attention design, where low-bit attention is introduced via quantization-aware fine-tuning to reduce quantization error. Experiments show that on video diffusion models, SLA2 can achieve 97% attention sparsity and deliver an 18.6x attention speedup while preserving generation quality.

SLA2: Attenzione Sparsa-Lineare con Instradamento Apprendibile e QAT

SLA2: Sparse-Linear Attention with Learnable Routing and QAT

Abstract

Support