LiteAttention: Временная разреженная внимание для диффузионных трансформаторов
LiteAttention: A Temporal Sparse Attention for Diffusion Transformers
November 14, 2025
Авторы: Dor Shmilovich, Tony Wu, Aviad Dahan, Yuval Domb
cs.AI
Аннотация
Диффузионные трансформаторы, особенно для генерации видео, достигают выдающегося качества, но страдают от квадратичной сложности механизма внимания, что приводит к неприемлемой задержке. Существующие методы ускорения сталкиваются с фундаментальным компромиссом: динамическое вычисление разреженных паттернов внимания на каждом шаге денойзинга влечет высокие вычислительные затраты и ошибки оценки, в то время как статические паттерны разреженности остаются фиксированными и часто оказываются неоптимальными на протяжении всего процесса денойзинга. Мы выявляем ключевое структурное свойство внимания в диффузионных моделях, а именно — сильную временную согласованность его паттернов разреженности между шагами денойзинга. Тайлы, признанные несущественными на шаге t, обычно остаются таковыми и на шаге t+δ. Используя это наблюдение, мы представляем LiteAttention — метод, который использует временную согласованность для пропуска эволюционных вычислений вдоль последовательности денойзинга. Помечая несущественные тайлы на ранних этапах и распространяя решения о пропуске вперед, LiteAttention устраняет избыточные вычисления внимания без повторных затрат на профилирование, сочетая адаптивность динамических методов с эффективностью статических. Мы реализуем высокооптимизированное ядро LiteAttention поверх FlashAttention и демонстрируем значительное ускорение в промышленных моделях видео-диффузии без ухудшения качества. Код и детали реализации будут опубликованы в открытом доступе.
English
Diffusion Transformers, particularly for video generation, achieve remarkable quality but suffer from quadratic attention complexity, leading to prohibitive latency. Existing acceleration methods face a fundamental trade-off: dynamically estimating sparse attention patterns at each denoising step incurs high computational overhead and estimation errors, while static sparsity patterns remain fixed and often suboptimal throughout denoising. We identify a key structural property of diffusion attention, namely, its sparsity patterns exhibit strong temporal coherence across denoising steps. Tiles deemed non-essential at step t typically remain so at step t+δ. Leveraging this observation, we introduce LiteAttention, a method that exploits temporal coherence to enable evolutionary computation skips across the denoising sequence. By marking non-essential tiles early and propagating skip decisions forward, LiteAttention eliminates redundant attention computations without repeated profiling overheads, combining the adaptivity of dynamic methods with the efficiency of static ones. We implement a highly optimized LiteAttention kernel on top of FlashAttention and demonstrate substantial speedups on production video diffusion models, with no degradation in quality. The code and implementation details will be publicly released.