LiteAttention: Una Atención Dispersa Temporal para Transformadores de Difusión
LiteAttention: A Temporal Sparse Attention for Diffusion Transformers
November 14, 2025
Autores: Dor Shmilovich, Tony Wu, Aviad Dahan, Yuval Domb
cs.AI
Resumen
Los Transformadores de Difusión, particularmente para la generación de vídeo, logran una calidad notable, pero sufren de una complejidad de atención cuadrática que conlleva una latencia prohibitiva. Los métodos de aceleración existentes enfrentan una disyuntiva fundamental: la estimación dinámica de patrones de atención dispersos en cada paso de desruido incurre en una alta sobrecarga computacional y errores de estimación, mientras que los patrones de dispersión estáticos permanecen fijos y a menudo son subóptimos durante todo el proceso de desruido. Identificamos una propiedad estructural clave de la atención en difusión: sus patrones de dispersión exhiben una fuerte coherencia temporal a lo largo de los pasos de desruido. Los "tiles" considerados no esenciales en el paso t normalmente permanecen así en el paso t+δ. Aprovechando esta observación, presentamos LiteAttention, un método que explota la coherencia temporal para permitir saltos de cómputo evolutivo a lo largo de la secuencia de desruido. Al marcar los tiles no esenciales de forma temprana y propagar las decisiones de salto hacia adelante, LiteAttention elimina los cálculos de atención redundantes sin las sobrecargas de un perfilado repetido, combinando la adaptabilidad de los métodos dinámicos con la eficiencia de los estáticos. Implementamos un kernel de LiteAttention altamente optimizado sobre FlashAttention y demostramos aceleraciones sustanciales en modelos de difusión de vídeo de producción, sin degradación de la calidad. El código y los detalles de implementación se publicarán públicamente.
English
Diffusion Transformers, particularly for video generation, achieve remarkable quality but suffer from quadratic attention complexity, leading to prohibitive latency. Existing acceleration methods face a fundamental trade-off: dynamically estimating sparse attention patterns at each denoising step incurs high computational overhead and estimation errors, while static sparsity patterns remain fixed and often suboptimal throughout denoising. We identify a key structural property of diffusion attention, namely, its sparsity patterns exhibit strong temporal coherence across denoising steps. Tiles deemed non-essential at step t typically remain so at step t+δ. Leveraging this observation, we introduce LiteAttention, a method that exploits temporal coherence to enable evolutionary computation skips across the denoising sequence. By marking non-essential tiles early and propagating skip decisions forward, LiteAttention eliminates redundant attention computations without repeated profiling overheads, combining the adaptivity of dynamic methods with the efficiency of static ones. We implement a highly optimized LiteAttention kernel on top of FlashAttention and demonstrate substantial speedups on production video diffusion models, with no degradation in quality. The code and implementation details will be publicly released.