Re-ttention: Generazione Visiva Ultra Sparsa tramite Riformulazione Statistica dell'Attenzione
Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape
May 28, 2025
Autori: Ruichen Chen, Keith G. Mills, Liyao Jiang, Chao Gao, Di Niu
cs.AI
Abstract
I Diffusion Transformer (DiT) sono diventati il modello di riferimento per la generazione di contenuti visivi di alta qualità come video e immagini. Un grosso collo di bottiglia è rappresentato dal meccanismo di attenzione, la cui complessità scala quadraticamente con la risoluzione e la durata del video. Un approccio logico per ridurre questo carico è l'attenzione sparsa, in cui solo un sottoinsieme di token o patch viene incluso nel calcolo. Tuttavia, le tecniche esistenti non riescono a preservare la qualità visiva a livelli di sparsità estremamente elevati e potrebbero persino comportare un overhead computazionale non trascurabile. Per affrontare questo problema, proponiamo Re-ttention, che implementa un'attenzione sparsa molto elevata per i modelli di generazione visiva sfruttando la ridondanza temporale dei Diffusion Model per superare lo spostamento di normalizzazione probabilistica all'interno del meccanismo di attenzione. Nello specifico, Re-ttention rimodella i punteggi di attenzione basandosi sulla storia delle distribuzioni softmax precedenti, al fine di preservare la qualità visiva dell'attenzione quadratica completa a livelli di sparsità molto elevati. I risultati sperimentali su modelli T2V/T2I come CogVideoX e i PixArt DiT dimostrano che Re-ttention richiede solo il 3,1% dei token durante l'inferenza, superando metodi contemporanei come FastDiTAttn, Sparse VideoGen e MInference. Inoltre, abbiamo misurato la latenza per dimostrare che il nostro metodo può ottenere una riduzione della latenza end-to-end superiore al 45% e una riduzione della latenza di self-attention superiore al 92% su una GPU H100 con un costo overhead trascurabile.
Il codice è disponibile online qui:
https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
English
Diffusion Transformers (DiT) have become the de-facto model for generating
high-quality visual content like videos and images. A huge bottleneck is the
attention mechanism where complexity scales quadratically with resolution and
video length. One logical way to lessen this burden is sparse attention, where
only a subset of tokens or patches are included in the calculation. However,
existing techniques fail to preserve visual quality at extremely high sparsity
levels and might even incur non-negligible compute overheads. % To address this
concern, we propose Re-ttention, which implements very high sparse attention
for visual generation models by leveraging the temporal redundancy of Diffusion
Models to overcome the probabilistic normalization shift within the attention
mechanism. Specifically, Re-ttention reshapes attention scores based on the
prior softmax distribution history in order to preserve the visual quality of
the full quadratic attention at very high sparsity levels. % Experimental
results on T2V/T2I models such as CogVideoX and the PixArt DiTs demonstrate
that Re-ttention requires as few as 3.1\% of the tokens during inference,
outperforming contemporary methods like FastDiTAttn, Sparse VideoGen and
MInference. Further, we measure latency to show that our method can attain over
45\% end-to-end % and over 92\% self-attention latency reduction on an H100 GPU
at negligible overhead cost.
Code available online here:
https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}