SALAD: 비디오 확산 트랜스포머를 위한 효율적인 선형 어텐션 튜닝을 통한 고희소성 어텐션 달성
SALAD: Achieve High-Sparsity Attention via Efficient Linear Attention Tuning for Video Diffusion Transformer
January 23, 2026
저자: Tongcheng Fang, Hanling Zhang, Ruiqi Xie, Zhuo Han, Xin Tao, Tianchen Zhao, Pengfei Wan, Wenbo Ding, Wanli Ouyang, Xuefei Ning, Yu Wang
cs.AI
초록
확산 트랜스포머는 최근 비디오 생성 분야에서 뛰어난 성능을 입증했습니다. 그러나 긴 입력 시퀀스는 전체 어텐션의 이차 복잡도로 인해 높은 계산 지연을 초래합니다. 다양한 희소 어텐션 메커니즘이 제안되었는데, 훈련 없이 적용 가능한 희소 어텐션은 제한된 희소성으로 인해 미미한 가속 효과만 제공하는 반면, 훈련 기반 방법은 더 높은 희소성을 달성할 수 있지만 상당한 데이터와 계산 자원을 요구합니다. 본 연구에서는 SALAD를 제안하며, 희소 어텐션과 병렬로 경량의 선형 어텐션 분기를 도입합니다. 입력 의존형 게이팅 메커니즘을 통해 두 분기를 세밀하게 균형 잡음으로써, 우리의 방법은 전체 어텐션 기준과 유사한 생성 품질을 유지하면서 90%의 희소성과 1.72배의 추론 속도 향상을 달성합니다. 또한 미세 조정 과정은 배치 크기 8기준 단 2,000개의 비디오 샘플과 1,600회의 훈련 단계만으로도 매우 효율적으로 수행됩니다.
English
Diffusion Transformers have recently demonstrated remarkable performance in video generation. However, the long input sequences result in high computational latency due to the quadratic complexity of full attention. Various sparse attention mechanisms have been proposed. Training-free sparse attention is constrained by limited sparsity and thus offers modest acceleration, whereas training-based methods can reach much higher sparsity but demand substantial data and computation for training. In this work, we propose SALAD, introducing a lightweight linear attention branch in parallel with the sparse attention. By incorporating an input-dependent gating mechanism to finely balance the two branches, our method attains 90% sparsity and 1.72x inference speedup, while maintaining generation quality comparable to the full attention baseline. Moreover, our finetuning process is highly efficient, requiring only 2,000 video samples and 1,600 training steps with a batch size of 8.