Re-ttention : Génération visuelle ultra parcimonieuse via remodelage statistique de l'attention
Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape
May 28, 2025
Auteurs: Ruichen Chen, Keith G. Mills, Liyao Jiang, Chao Gao, Di Niu
cs.AI
Résumé
Les Transformeurs de Diffusion (DiT) sont devenus le modèle de référence pour générer du contenu visuel de haute qualité, comme des vidéos et des images. Un goulot d'étranglement majeur réside dans le mécanisme d'attention, dont la complexité augmente de manière quadratique avec la résolution et la durée des vidéos. Une approche logique pour alléger cette charge est l'attention parcimonieuse, où seul un sous-ensemble de tokens ou de patches est inclus dans le calcul. Cependant, les techniques existantes échouent à préserver la qualité visuelle à des niveaux de parcimonie extrêmement élevés et peuvent même entraîner des surcoûts de calcul non négligeables. % Pour répondre à cette problématique, nous proposons Re-ttention, qui met en œuvre une attention très parcimonieuse pour les modèles de génération visuelle en exploitant la redondance temporelle des Modèles de Diffusion pour surmonter le décalage de normalisation probabiliste au sein du mécanisme d'attention. Plus précisément, Re-ttention redéfinit les scores d'attention en se basant sur l'historique des distributions softmax précédentes afin de préserver la qualité visuelle de l'attention quadratique complète à des niveaux de parcimonie très élevés. % Les résultats expérimentaux sur des modèles T2V/T2I tels que CogVideoX et les PixArt DiTs démontrent que Re-ttention nécessite aussi peu que 3,1 % des tokens lors de l'inférence, surpassant les méthodes contemporaines comme FastDiTAttn, Sparse VideoGen et MInference. De plus, nous mesurons la latence pour montrer que notre méthode peut atteindre une réduction de plus de 45 % de la latence end-to-end % et de plus de 92 % de la latence d'auto-attention sur un GPU H100 à un coût négligeable.
Le code est disponible en ligne ici :
https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
English
Diffusion Transformers (DiT) have become the de-facto model for generating
high-quality visual content like videos and images. A huge bottleneck is the
attention mechanism where complexity scales quadratically with resolution and
video length. One logical way to lessen this burden is sparse attention, where
only a subset of tokens or patches are included in the calculation. However,
existing techniques fail to preserve visual quality at extremely high sparsity
levels and might even incur non-negligible compute overheads. % To address this
concern, we propose Re-ttention, which implements very high sparse attention
for visual generation models by leveraging the temporal redundancy of Diffusion
Models to overcome the probabilistic normalization shift within the attention
mechanism. Specifically, Re-ttention reshapes attention scores based on the
prior softmax distribution history in order to preserve the visual quality of
the full quadratic attention at very high sparsity levels. % Experimental
results on T2V/T2I models such as CogVideoX and the PixArt DiTs demonstrate
that Re-ttention requires as few as 3.1\% of the tokens during inference,
outperforming contemporary methods like FastDiTAttn, Sparse VideoGen and
MInference. Further, we measure latency to show that our method can attain over
45\% end-to-end % and over 92\% self-attention latency reduction on an H100 GPU
at negligible overhead cost.
Code available online here:
https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}Summary
AI-Generated Summary