SALAD: Raggiungere un'Attenzione ad Alta Sparsità tramune una Efficiente Regolazione dell'Attenzione Lineare per il Trasformatore di Diffusione Video

Abstract

I Diffusion Transformer hanno recentemente dimostrato prestazioni notevoli nella generazione video. Tuttavia, le lunghe sequenze in input comportano un'elevata latenza computazionale a causa della complessità quadratica dell'attenzione completa. Sono stati proposti vari meccanismi di attenzione sparsa. L'attenzione sparsa senza addestramento è limitata da una sparsità ridotta e offre quindi un'accelerazione modesta, mentre i metodi basati su addestramento possono raggiungere una sparsità molto più elevata ma richiedono dati e calcolo sostanziali per l'allenamento. In questo lavoro, proponiamo SALAD, introducendo un ramo di attenzione lineare leggero in parallelo all'attenzione sparsa. Incorporando un meccanismo di gating dipendente dall'input per bilanciare finemente i due rami, il nostro metodo raggiunge il 90% di sparsità e un'accelerazione inferenziale di 1,72x, mantenendo una qualità di generazione comparabile al baseline di attenzione completa. Inoltre, il nostro processo di fine-tuning è altamente efficiente, richiedendo solo 2.000 campioni video e 1.600 step di addestramento con un batch size di 8.

English

Diffusion Transformers have recently demonstrated remarkable performance in video generation. However, the long input sequences result in high computational latency due to the quadratic complexity of full attention. Various sparse attention mechanisms have been proposed. Training-free sparse attention is constrained by limited sparsity and thus offers modest acceleration, whereas training-based methods can reach much higher sparsity but demand substantial data and computation for training. In this work, we propose SALAD, introducing a lightweight linear attention branch in parallel with the sparse attention. By incorporating an input-dependent gating mechanism to finely balance the two branches, our method attains 90% sparsity and 1.72x inference speedup, while maintaining generation quality comparable to the full attention baseline. Moreover, our finetuning process is highly efficient, requiring only 2,000 video samples and 1,600 training steps with a batch size of 8.

SALAD: Raggiungere un'Attenzione ad Alta Sparsità tramune una Efficiente Regolazione dell'Attenzione Lineare per il Trasformatore di Diffusione Video

SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

Abstract

Support