SpargeAttention2: 하이브리드 Top-k+Top-p 마스킹 및 증류 미세 조정을 통한 학습 가능한 희소 어텐션
SpargeAttention2: Trainable Sparse Attention via Hybrid Top-k+Top-p Masking and Distillation Fine-Tuning
February 13, 2026
저자: Jintao Zhang, Kai Jiang, Chendong Xiang, Weiqi Feng, Yuezhou Hu, Haocheng Xi, Jianfei Chen, Jun Zhu
cs.AI
초록
많은 학습이 필요 없는 희소 주의 방법이 확산 모델의 가속화에 효과적입니다. 최근 몇몇 연구에서는 희소 주의를 학습 가능하게 만들면 생성 품질을 유지하면서 희소성을 더욱 높일 수 있음을 제안합니다. 본 논문은 세 가지 핵심 질문을 연구합니다: (1) 두 가지 일반적인 마스킹 규칙인 Top-k와 Top-p는 언제 실패하며, 이러한 실패를 어떻게 피할 수 있는가? (2) 학습 가능한 희소 주의가 학습이 필요 없는 방법보다 더 높은 희소성에 도달할 수 있는 이유는 무엇인가? (3) 확산 손실을 사용하여 희소 주의를 미세 조정할 때의 한계는 무엇이며, 이를 어떻게 해결할 수 있는가? 이러한 분석을 바탕으로 우리는 생성 품질을 저하시키지 않으면서 높은 희소성을 달성하는 학습 가능한 희소 주의 방법인 SpargeAttention2를 제안합니다. SpargeAttention2는 (i) 높은 희소성에서 더욱 강력한 마스킹을 위해 Top-k와 Top-p를 결합한 하이브리드 마스킹 규칙, (ii) 효율적인 학습 가능한 희소 주의 구현, 그리고 (iii) 희소 주의를 사용한 미세 조정 동안 생성 품질을 더 잘 보존하기 위한 증류에서 영감을 받은 미세 조정 목표를 포함합니다. 비디오 확산 모델에 대한 실험 결과, SpargeAttention2는 생성 품질을 유지하면서 95%의 주의 희소성과 16.2배의 주의 가속화를 달성하여 기존 희소 주의 방법들을 일관되게 능가함을 보여줍니다.
English
Many training-free sparse attention methods are effective for accelerating diffusion models. Recently, several works suggest that making sparse attention trainable can further increase sparsity while preserving generation quality. We study three key questions: (1) when do the two common masking rules, i.e., Top-k and Top-p, fail, and how can we avoid these failures? (2) why can trainable sparse attention reach higher sparsity than training-free methods? (3) what are the limitations of fine-tuning sparse attention using the diffusion loss, and how can we address them? Based on this analysis, we propose SpargeAttention2, a trainable sparse attention method that achieves high sparsity without degrading generation quality. SpargeAttention2 includes (i) a hybrid masking rule that combines Top-k and Top-p for more robust masking at high sparsity, (ii) an efficient trainable sparse attention implementation, and (iii) a distillation-inspired fine-tuning objective to better preserve generation quality during fine-tuning using sparse attention. Experiments on video diffusion models show that SpargeAttention2 reaches 95% attention sparsity and a 16.2x attention speedup while maintaining generation quality, consistently outperforming prior sparse attention methods.