SALAD: Достижение высокоразреженного внимания посредством эффективной тонкой настройки линейного внимания для видеодиффузионного трансформера
SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer
January 23, 2026
Авторы: Tongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang
cs.AI
Аннотация
Диффузионные трансформеры недавно продемонстрировали выдающиеся результаты в генерации видео. Однако длинные входные последовательности приводят к высокой вычислительной задержке из-за квадратичной сложности полного внимания. Были предложены различные механизмы разреженного внимания. Бестренировочное разреженное внимание ограничено низкой степенью разреженности и обеспечивает умеренное ускорение, тогда как тренировочные методы могут достигать значительно более высокой разреженности, но требуют существенных данных и вычислений для обучения. В данной работе мы предлагаем SALAD, вводя легковесную ветвь линейного внимания параллельно с разреженным вниманием. Благодаря включению входозависимого механизма регулирования для точного балансирования двух ветвей наш метод достигает 90% разреженности и ускорения вывода в 1,72 раза при сохранении качества генерации, сопоставимого с базовым методом полного внимания. Более того, наш процесс дообучения высокоэффективен, требуя всего 2000 видеосэмплов и 1600 шагов обучения с размером пакета 8.
English
Diffusion Transformers have recently demonstrated remarkable performance in video generation. However, the long input sequences result in high computational latency due to the quadratic complexity of full attention. Various sparse attention mechanisms have been proposed. Training-free sparse attention is constrained by limited sparsity and thus offers modest acceleration, whereas training-based methods can reach much higher sparsity but demand substantial data and computation for training. In this work, we propose SALAD, introducing a lightweight linear attention branch in parallel with the sparse attention. By incorporating an input-dependent gating mechanism to finely balance the two branches, our method attains 90% sparsity and 1.72x inference speedup, while maintaining generation quality comparable to the full attention baseline. Moreover, our finetuning process is highly efficient, requiring only 2,000 video samples and 1,600 training steps with a batch size of 8.