ChatPaper.aiChatPaper

LiteAttention : Une attention temporelle parcimonieuse pour les transformeurs de diffusion

LiteAttention: A Temporal Sparse Attention for Diffusion Transformers

November 14, 2025
papers.authors: Dor Shmilovich, Tony Wu, Aviad Dahan, Yuval Domb
cs.AI

papers.abstract

Les Transformers par diffusion, particulièrement pour la génération vidéo, atteignent une qualité remarquable mais souffrent d'une complexité attentionnelle quadratique, entraînant une latence prohibitive. Les méthodes d'accélération existantes sont confrontées à un compromis fondamental : l'estimation dynamique de motifs d'attention clairsemés à chaque étape de débruîtage génère un coût computationnel élevé et des erreurs d'estimation, tandis que les motifs de parcimonie statiques restent fixes et souvent sous-optimaux tout au long du débruîtage. Nous identifions une propriété structurelle clé de l'attention par diffusion : ses motifs de parcimonie présentent une forte cohérence temporelle entre les étapes de débruîtage. Les tuiles jugées non essentielles à l'étape t le restent généralement à l'étape t+δ. En tirant parti de cette observation, nous présentons LiteAttention, une méthode qui exploite la cohérence temporelle pour permettre des sauts de calcul évolutifs à travers la séquence de débruîtage. En marquant les tuiles non essentielles tôt et en propageant les décisions de saut vers l'avant, LiteAttention élimine les calculs d'attention redondants sans les surcoûts de profilage répétés, combinant ainsi l'adaptativité des méthodes dynamiques à l'efficacité des méthodes statiques. Nous implémentons un noyau LiteAttention hautement optimisé sur la base de FlashAttention et démontrons des accélérations substantielles sur des modèles de diffusion vidéo en production, sans dégradation de la qualité. Le code et les détails d'implémentation seront rendus publics.
English
Diffusion Transformers, particularly for video generation, achieve remarkable quality but suffer from quadratic attention complexity, leading to prohibitive latency. Existing acceleration methods face a fundamental trade-off: dynamically estimating sparse attention patterns at each denoising step incurs high computational overhead and estimation errors, while static sparsity patterns remain fixed and often suboptimal throughout denoising. We identify a key structural property of diffusion attention, namely, its sparsity patterns exhibit strong temporal coherence across denoising steps. Tiles deemed non-essential at step t typically remain so at step t+δ. Leveraging this observation, we introduce LiteAttention, a method that exploits temporal coherence to enable evolutionary computation skips across the denoising sequence. By marking non-essential tiles early and propagating skip decisions forward, LiteAttention eliminates redundant attention computations without repeated profiling overheads, combining the adaptivity of dynamic methods with the efficiency of static ones. We implement a highly optimized LiteAttention kernel on top of FlashAttention and demonstrate substantial speedups on production video diffusion models, with no degradation in quality. The code and implementation details will be publicly released.
PDF292December 1, 2025