ChatPaper.aiChatPaper

SLA: Oltre la sparsità nei Transformer di diffusione tramite Attenzione Sparse-Lineare fine-tunabile

SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse-Linear Attention

September 28, 2025
Autori: Jintao Zhang, Haoxu Wang, Kai Jiang, Shuo Yang, Kaiwen Zheng, Haocheng Xi, Ziteng Wang, Hongzhou Zhu, Min Zhao, Ion Stoica, Joseph E. Gonzalez, Jun Zhu, Jianfei Chen
cs.AI

Abstract

Nei modelli Diffusion Transformer (DiT), in particolare per la generazione di video, la latenza dell'attenzione rappresenta un collo di bottiglia significativo a causa della lunghezza delle sequenze e della complessità quadratica. Abbiamo osservato che i pesi dell'attenzione possono essere separati in due parti: una piccola frazione di pesi grandi con rango elevato e i restanti pesi con rango molto basso. Ciò suggerisce naturalmente di applicare un'accelerazione sparsa alla prima parte e un'accelerazione a basso rango alla seconda. Sulla base di questa scoperta, proponiamo SLA (Sparse-Linear Attention), un metodo di attenzione addestrabile che combina attenzione sparsa e lineare per accelerare i modelli di diffusione. SLA classifica i pesi dell'attenzione in categorie critiche, marginali e trascurabili, applicando un'attenzione O(N^2) ai pesi critici, O(N) ai pesi marginali e saltando quelli trascurabili. SLA unisce questi calcoli in un singolo kernel GPU e supporta sia il passaggio in avanti che quello all'indietro. Con pochi passi di fine-tuning utilizzando SLA, i modelli DiT ottengono una riduzione di 20x nel calcolo dell'attenzione, ottenendo un'accelerazione significativa senza perdita di qualità nella generazione. Gli esperimenti dimostrano che SLA riduce il calcolo dell'attenzione del 95% senza degradare la qualità della generazione end-to-end, superando i metodi di base. Inoltre, implementiamo un kernel GPU efficiente per SLA, che produce un'accelerazione di 13.7x nel calcolo dell'attenzione e un'accelerazione end-to-end di 2.2x nella generazione di video su Wan2.1-1.3B.
English
In Diffusion Transformer (DiT) models, particularly for video generation, attention latency is a major bottleneck due to the long sequence length and the quadratic complexity. We find that attention weights can be separated into two parts: a small fraction of large weights with high rank and the remaining weights with very low rank. This naturally suggests applying sparse acceleration to the first part and low-rank acceleration to the second. Based on this finding, we propose SLA (Sparse-Linear Attention), a trainable attention method that fuses sparse and linear attention to accelerate diffusion models. SLA classifies attention weights into critical, marginal, and negligible categories, applying O(N^2) attention to critical weights, O(N) attention to marginal weights, and skipping negligible ones. SLA combines these computations into a single GPU kernel and supports both forward and backward passes. With only a few fine-tuning steps using SLA, DiT models achieve a 20x reduction in attention computation, resulting in significant acceleration without loss of generation quality. Experiments show that SLA reduces attention computation by 95% without degrading end-to-end generation quality, outperforming baseline methods. In addition, we implement an efficient GPU kernel for SLA, which yields a 13.7x speedup in attention computation and a 2.2x end-to-end speedup in video generation on Wan2.1-1.3B.
PDF1144September 30, 2025