ChatPaper.aiChatPaper

SALAD:ビデオ拡散Transformerにおける効率的線形注意機構チューニングによる高スパース性注意機構の実現

SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer

January 23, 2026
著者: Tongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang
cs.AI

要旨

拡散トランスフォーマーは近年、映像生成において顕著な性能を示している。しかし、長い入力シーケンスは、フルアテンションの二次的な計算量のため、高い計算遅延を引き起こす。様々な疎アテンション手法が提案されてきた。学習不要の疎アテンションは限られた疎性に制約されるため、加速効果は控えめである。一方、学習ベースの手法ははるかに高い疎性を達成できるが、学習に大量のデータと計算資源を必要とする。本研究では、SALADを提案し、疎アテンションと並列に軽量な線形アテンションブランチを導入する。入力依存のゲーティング機構を組み込むことで二つのブランチを精密に調整し、我々の手法は90%の疎性と1.72倍の推論高速化を達成しつつ、フルアテンションベースラインと同等の生成品質を維持する。さらに、我々のファインチューニングプロセスは極めて効率的で、バッチサイズ8でわずか2,000の映像サンプルと1,600学習ステップのみを要する。
English
Diffusion Transformers have recently demonstrated remarkable performance in video generation. However, the long input sequences result in high computational latency due to the quadratic complexity of full attention. Various sparse attention mechanisms have been proposed. Training-free sparse attention is constrained by limited sparsity and thus offers modest acceleration, whereas training-based methods can reach much higher sparsity but demand substantial data and computation for training. In this work, we propose SALAD, introducing a lightweight linear attention branch in parallel with the sparse attention. By incorporating an input-dependent gating mechanism to finely balance the two branches, our method attains 90% sparsity and 1.72x inference speedup, while maintaining generation quality comparable to the full attention baseline. Moreover, our finetuning process is highly efficient, requiring only 2,000 video samples and 1,600 training steps with a batch size of 8.
PDF112January 27, 2026