ChatPaper.aiChatPaper

LiteAttention: 확산 트랜스포머를 위한 시간적 희소 어텐션

LiteAttention: A Temporal Sparse Attention for Diffusion Transformers

November 14, 2025
저자: Dor Shmilovich, Tony Wu, Aviad Dahan, Yuval Domb
cs.AI

초록

디퓨전 트랜스포머, 특히 비디오 생성 분야에서는 놀라운 품질을 달성하지만 2차 어텐션 복잡도로 인해 지나친 지연 시간이 발생합니다. 기존 가속 방법은 근본적인 절충에 직면해 있습니다. 각 노이즈 제거 단계에서 희소 어텐션 패턴을 동적으로 추정하는 것은 높은 계산 오버헤드와 추정 오류를 초래하는 반면, 정적 희소성 패턴은 노이즈 제거 과정 내내 고정되어 있고 종종 최적이 아닙니다. 우리는 디퓨전 어텐션의 핵심 구조적 특성, 즉 그 희소성 패턴이 노이즈 제거 단계 전반에 걸쳐 강한 시간적 일관성을 보인다는 점을 확인했습니다. 단계 t에서 불필요한 것으로 판단된 타일은 일반적으로 단계 t+δ에서도 그대로 유지됩니다. 이러한 관찰을 활용하여, 우리는 노이즈 제거 시퀀스 전반에 걸친 진화적 계산 생략을 가능하게 하는 시간적 일관성 활용 방법인 LiteAttention을 소개합니다. 불필요한 타일을 조기에 표시하고 생략 결정을 전파함으로써, LiteAttention은 반복적인 프로파일링 오버헤드 없이 중복 어텐션 계산을 제거하여 동적 방법의 적응성과 정적 방법의 효율성을 결합합니다. 우리는 FlashAttention 기반으로 고도로 최적화된 LiteAttention 커널을 구현하고 프로덕션 비디오 디퓨전 모델에서 품질 저하 없이 상당한 속도 향상을 입증합니다. 코드 및 구현 세부 사항은 공개될 예정입니다.
English
Diffusion Transformers, particularly for video generation, achieve remarkable quality but suffer from quadratic attention complexity, leading to prohibitive latency. Existing acceleration methods face a fundamental trade-off: dynamically estimating sparse attention patterns at each denoising step incurs high computational overhead and estimation errors, while static sparsity patterns remain fixed and often suboptimal throughout denoising. We identify a key structural property of diffusion attention, namely, its sparsity patterns exhibit strong temporal coherence across denoising steps. Tiles deemed non-essential at step t typically remain so at step t+δ. Leveraging this observation, we introduce LiteAttention, a method that exploits temporal coherence to enable evolutionary computation skips across the denoising sequence. By marking non-essential tiles early and propagating skip decisions forward, LiteAttention eliminates redundant attention computations without repeated profiling overheads, combining the adaptivity of dynamic methods with the efficiency of static ones. We implement a highly optimized LiteAttention kernel on top of FlashAttention and demonstrate substantial speedups on production video diffusion models, with no degradation in quality. The code and implementation details will be publicly released.
PDF292December 1, 2025