SALAD: Erzielung hochgradig sparser Aufmerksamkeit durch effizientes lineares Attention-Tuning für Video-Diffusion-Transformatoren
SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer
January 23, 2026
papers.authors: Tongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang
cs.AI
papers.abstract
Diffusion Transformer haben kürzlich bemerkenswerte Leistungen in der Videogenerierung gezeigt. Allerdings führen die langen Eingabesequenzen aufgrund der quadratischen Komplexität der Voll-Attention zu hohen Latenzen. Verschiedene sparse Attention-Mechanismen wurden vorgeschlagen. Trainingsfreie sparse Attention ist durch begrenzte Sparsity eingeschränkt und bietet daher nur moderate Beschleunigung, während trainingsbasierte Methoden eine viel höhere Sparsity erreichen können, aber erhebliche Daten- und Rechenressourcen für das Training erfordern. In dieser Arbeit schlagen wir SALAD vor, das einen leichten linearen Attention-Zweig parallel zur sparse Attention einführt. Durch einen eingabeabhängigen Gating-Mechanismus, der die beiden Zweige fein austariert, erreicht unsere Methode 90 % Sparsity und eine 1,72-fache Beschleunigung bei der Inferenz, bei gleichbleibender Generierungsqualität im Vergleich zur Voll-Attention-Baseline. Darüber hinaus ist unser Fine-Tuning-Prozess hocheffizient und erfordert nur 2.000 Videobeispiele und 1.600 Trainingsschritte bei einer Batch-Größe von 8.
English
Diffusion Transformers have recently demonstrated remarkable performance in video generation. However, the long input sequences result in high computational latency due to the quadratic complexity of full attention. Various sparse attention mechanisms have been proposed. Training-free sparse attention is constrained by limited sparsity and thus offers modest acceleration, whereas training-based methods can reach much higher sparsity but demand substantial data and computation for training. In this work, we propose SALAD, introducing a lightweight linear attention branch in parallel with the sparse attention. By incorporating an input-dependent gating mechanism to finely balance the two branches, our method attains 90% sparsity and 1.72x inference speedup, while maintaining generation quality comparable to the full attention baseline. Moreover, our finetuning process is highly efficient, requiring only 2,000 video samples and 1,600 training steps with a batch size of 8.