Re-ttention: Ультраразреженная визуальная генерация через статистическую перестройку внимания
Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape
May 28, 2025
Авторы: Ruichen Chen, Keith G. Mills, Liyao Jiang, Chao Gao, Di Niu
cs.AI
Аннотация
Диффузионные Трансформеры (DiT) стали стандартной моделью для генерации высококачественного визуального контента, такого как видео и изображения. Основным узким местом является механизм внимания, сложность которого растет квадратично с увеличением разрешения и длины видео. Логичным способом снизить эту нагрузку является использование разреженного внимания, при котором в расчет включается только подмножество токенов или патчей. Однако существующие методы не сохраняют визуальное качество при крайне высоких уровнях разреженности и могут даже приводить к значительным вычислительным накладным расходам. % Для решения этой проблемы мы предлагаем Re-ttention, который реализует очень высокое разреженное внимание для моделей визуальной генерации, используя временную избыточность Диффузионных Моделей для преодоления сдвига вероятностной нормализации в механизме внимания. В частности, Re-ttention переформирует оценки внимания на основе истории предыдущих распределений softmax, чтобы сохранить визуальное качество полного квадратичного внимания при очень высоких уровнях разреженности. % Экспериментальные результаты на моделях T2V/T2I, таких как CogVideoX и PixArt DiTs, демонстрируют, что Re-ttention требует всего 3.1% токенов во время вывода, превосходя современные методы, такие как FastDiTAttn, Sparse VideoGen и MInference. Кроме того, мы измеряем задержку, чтобы показать, что наш метод может достичь более 45% сокращения сквозной задержки и более 92% сокращения задержки само-внимания на GPU H100 при незначительных накладных расходах.
Код доступен онлайн здесь:
https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
English
Diffusion Transformers (DiT) have become the de-facto model for generating
high-quality visual content like videos and images. A huge bottleneck is the
attention mechanism where complexity scales quadratically with resolution and
video length. One logical way to lessen this burden is sparse attention, where
only a subset of tokens or patches are included in the calculation. However,
existing techniques fail to preserve visual quality at extremely high sparsity
levels and might even incur non-negligible compute overheads. % To address this
concern, we propose Re-ttention, which implements very high sparse attention
for visual generation models by leveraging the temporal redundancy of Diffusion
Models to overcome the probabilistic normalization shift within the attention
mechanism. Specifically, Re-ttention reshapes attention scores based on the
prior softmax distribution history in order to preserve the visual quality of
the full quadratic attention at very high sparsity levels. % Experimental
results on T2V/T2I models such as CogVideoX and the PixArt DiTs demonstrate
that Re-ttention requires as few as 3.1\% of the tokens during inference,
outperforming contemporary methods like FastDiTAttn, Sparse VideoGen and
MInference. Further, we measure latency to show that our method can attain over
45\% end-to-end % and over 92\% self-attention latency reduction on an H100 GPU
at negligible overhead cost.
Code available online here:
https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}Summary
AI-Generated Summary