Re-ttention : Génération visuelle ultra parcimonieuse via remodelage statistique de l'attention

papers.abstract

Les Transformeurs de Diffusion (DiT) sont devenus le modèle de référence pour générer du contenu visuel de haute qualité, comme des vidéos et des images. Un goulot d'étranglement majeur réside dans le mécanisme d'attention, dont la complexité augmente de manière quadratique avec la résolution et la durée des vidéos. Une approche logique pour alléger cette charge est l'attention parcimonieuse, où seul un sous-ensemble de tokens ou de patches est inclus dans le calcul. Cependant, les techniques existantes échouent à préserver la qualité visuelle à des niveaux de parcimonie extrêmement élevés et peuvent même entraîner des surcoûts de calcul non négligeables. % Pour répondre à cette problématique, nous proposons Re-ttention, qui met en œuvre une attention très parcimonieuse pour les modèles de génération visuelle en exploitant la redondance temporelle des Modèles de Diffusion pour surmonter le décalage de normalisation probabiliste au sein du mécanisme d'attention. Plus précisément, Re-ttention redéfinit les scores d'attention en se basant sur l'historique des distributions softmax précédentes afin de préserver la qualité visuelle de l'attention quadratique complète à des niveaux de parcimonie très élevés. % Les résultats expérimentaux sur des modèles T2V/T2I tels que CogVideoX et les PixArt DiTs démontrent que Re-ttention nécessite aussi peu que 3,1 % des tokens lors de l'inférence, surpassant les méthodes contemporaines comme FastDiTAttn, Sparse VideoGen et MInference. De plus, nous mesurons la latence pour montrer que notre méthode peut atteindre une réduction de plus de 45 % de la latence end-to-end % et de plus de 92 % de la latence d'auto-attention sur un GPU H100 à un coût négligeable. Le code est disponible en ligne ici : https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}

English

Diffusion Transformers (DiT) have become the de-facto model for generating high-quality visual content like videos and images. A huge bottleneck is the attention mechanism where complexity scales quadratically with resolution and video length. One logical way to lessen this burden is sparse attention, where only a subset of tokens or patches are included in the calculation. However, existing techniques fail to preserve visual quality at extremely high sparsity levels and might even incur non-negligible compute overheads. % To address this concern, we propose Re-ttention, which implements very high sparse attention for visual generation models by leveraging the temporal redundancy of Diffusion Models to overcome the probabilistic normalization shift within the attention mechanism. Specifically, Re-ttention reshapes attention scores based on the prior softmax distribution history in order to preserve the visual quality of the full quadratic attention at very high sparsity levels. % Experimental results on T2V/T2I models such as CogVideoX and the PixArt DiTs demonstrate that Re-ttention requires as few as 3.1\% of the tokens during inference, outperforming contemporary methods like FastDiTAttn, Sparse VideoGen and MInference. Further, we measure latency to show that our method can attain over 45\% end-to-end % and over 92\% self-attention latency reduction on an H100 GPU at negligible overhead cost. Code available online here: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}

Re-ttention : Génération visuelle ultra parcimonieuse via remodelage statistique de l'attention

Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape

papers.abstract

Support