LiteAttention:拡散Transformerのための時間的スパースアテンション
LiteAttention: A Temporal Sparse Attention for Diffusion Transformers
November 14, 2025
著者: Dor Shmilovich, Tony Wu, Aviad Dahan, Yuval Domb
cs.AI
要旨
拡散トランスフォーマー、特に動画生成におけるモデルは、驚異的な品質を達成する一方で、二次関数的な注意機構の計算量により、実用が困難なほどの遅延が生じる課題を抱えています。既存の高速化手法は、根本的なトレードオフに直面しています。すなわち、各ノイズ除去ステップで疎な注意パターンを動的に推定する方法は、高い計算オーバーヘッドと推定誤差を招き、一方で静的な疎パターンは固定されたままであるため、ノイズ除去プロセス全体を通してしばしば最適とは言えません。
本研究では、拡散過程における注意機構の重要な構造的特性、すなわち、その疎パターンがノイズ除去ステップ間で強い時間的一貫性を示すことを明らかにしました。ステップtにおいて重要でないと判断されたタイルは、一般的にステップt+δにおいても同様に重要でないままであるという特性です。この観察結果を活用し、我々はLiteAttentionを提案します。これは時間的一貫性を利用して、ノイズ除去シーケンス全体で進化的な計算スキップを可能にする手法です。非本質的なタイルを早期にマークし、スキップの決定を前方に伝播させることで、LiteAttentionはプロファイリングの繰り返しによるオーバーヘッドなしに冗長な注意計算を排除し、動的手法の適応性と静的手法の効率性を兼ね備えています。
我々はFlashAttention上に高度に最適化されたLiteAttentionカーネルを実装し、実用規模の動画拡散モデルにおいて、品質の劣化を伴わずに大幅な高速化を実証しました。コードと実装の詳細は公開予定です。
English
Diffusion Transformers, particularly for video generation, achieve remarkable quality but suffer from quadratic attention complexity, leading to prohibitive latency. Existing acceleration methods face a fundamental trade-off: dynamically estimating sparse attention patterns at each denoising step incurs high computational overhead and estimation errors, while static sparsity patterns remain fixed and often suboptimal throughout denoising. We identify a key structural property of diffusion attention, namely, its sparsity patterns exhibit strong temporal coherence across denoising steps. Tiles deemed non-essential at step t typically remain so at step t+δ. Leveraging this observation, we introduce LiteAttention, a method that exploits temporal coherence to enable evolutionary computation skips across the denoising sequence. By marking non-essential tiles early and propagating skip decisions forward, LiteAttention eliminates redundant attention computations without repeated profiling overheads, combining the adaptivity of dynamic methods with the efficiency of static ones. We implement a highly optimized LiteAttention kernel on top of FlashAttention and demonstrate substantial speedups on production video diffusion models, with no degradation in quality. The code and implementation details will be publicly released.