SALAD: Hoog-schamele aandacht bereiken via efficiënte lineaire aandacht-afstemming voor videodiffusietransformers
SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer
January 23, 2026
Auteurs: Tongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang
cs.AI
Samenvatting
Diffusion Transformers hebben recentelijk opmerkelijke prestaties getoond bij videogeneratie. De lange invoersequenties resulteren echter in een hoge computationele latentie door de kwadratische complexiteit van volledige aandacht. Diverse sparse aandachtmechanismen zijn voorgesteld. Trainingsvrije sparse aandacht wordt beperkt door beperkte sparsiteit en biedt daardoor bescheiden versnelling, terwijl trainingsgebaseerde methoden een veel hogere sparsiteit kunnen bereiken maar aanzienlijke data en rekenkracht voor training vereisen. In dit werk stellen we SALAD voor, waarbij een lichtgewicht lineaire aandachtstak parallel wordt geïntroduceerd aan de sparse aandacht. Door een invoerafhankelijk gatingmechanisme te incorporeren om de twee takken fijn af te stemmen, bereikt onze methode 90% sparsiteit en een 1,72x versnelling van de inferentie, waarbij de generatiekwaliteit vergelijkbaar blijft met de volledige aandacht-basislijn. Bovendien is ons fine-tuningproces zeer efficiënt, met slechts 2.000 videovoorbeelden en 1.600 trainingstappen met een batchgrootte van 8.
English
Diffusion Transformers have recently demonstrated remarkable performance in video generation. However, the long input sequences result in high computational latency due to the quadratic complexity of full attention. Various sparse attention mechanisms have been proposed. Training-free sparse attention is constrained by limited sparsity and thus offers modest acceleration, whereas training-based methods can reach much higher sparsity but demand substantial data and computation for training. In this work, we propose SALAD, introducing a lightweight linear attention branch in parallel with the sparse attention. By incorporating an input-dependent gating mechanism to finely balance the two branches, our method attains 90% sparsity and 1.72x inference speedup, while maintaining generation quality comparable to the full attention baseline. Moreover, our finetuning process is highly efficient, requiring only 2,000 video samples and 1,600 training steps with a batch size of 8.