Re-ttention: Ultra-sparse visuelle Generierung durch statistische Neugestaltung von Aufmerksamkeit
Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape
May 28, 2025
Autoren: Ruichen Chen, Keith G. Mills, Liyao Jiang, Chao Gao, Di Niu
cs.AI
Zusammenfassung
Diffusion Transformers (DiT) haben sich als de-facto Modell für die Erzeugung hochwertiger visueller Inhalte wie Videos und Bilder etabliert. Ein erheblicher Engpass ist der Aufmerksamkeitsmechanismus, dessen Komplexität quadratisch mit der Auflösung und der Videolänge skaliert. Ein logischer Ansatz, um diese Belastung zu verringern, ist die spärliche Aufmerksamkeit (sparse attention), bei der nur eine Teilmenge von Tokens oder Patches in die Berechnung einbezogen wird. Bestehende Techniken scheitern jedoch daran, die visuelle Qualität bei extrem hohen Sparsamkeitsniveaus zu erhalten und können sogar nicht vernachlässigbare Rechenkosten verursachen. Um dieses Problem zu lösen, schlagen wir Re-ttention vor, das eine sehr hohe spärliche Aufmerksamkeit für visuelle Generierungsmodelle implementiert, indem es die zeitliche Redundanz von Diffusion Models nutzt, um die probabilistische Normalisierungsverschiebung innerhalb des Aufmerksamkeitsmechanismus zu überwinden. Konkret formt Re-ttention die Aufmerksamkeitswerte basierend auf der vorherigen Softmax-Verteilungshistorie um, um die visuelle Qualität der vollständigen quadratischen Aufmerksamkeit bei sehr hohen Sparsamkeitsniveaus zu bewahren. Experimentelle Ergebnisse an T2V/T2I-Modellen wie CogVideoX und den PixArt DiTs zeigen, dass Re-ttention während der Inferenz nur 3,1 % der Tokens benötigt und dabei zeitgenössische Methoden wie FastDiTAttn, Sparse VideoGen und MInference übertrifft. Darüber hinaus messen wir die Latenz, um zu zeigen, dass unsere Methode eine End-to-End-Reduktion von über 45 % und eine Selbstaufmerksamkeitslatenzreduktion von über 92 % auf einer H100-GPU bei vernachlässigbaren Zusatzkosten erreichen kann.
Code verfügbar unter:
https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
English
Diffusion Transformers (DiT) have become the de-facto model for generating
high-quality visual content like videos and images. A huge bottleneck is the
attention mechanism where complexity scales quadratically with resolution and
video length. One logical way to lessen this burden is sparse attention, where
only a subset of tokens or patches are included in the calculation. However,
existing techniques fail to preserve visual quality at extremely high sparsity
levels and might even incur non-negligible compute overheads. % To address this
concern, we propose Re-ttention, which implements very high sparse attention
for visual generation models by leveraging the temporal redundancy of Diffusion
Models to overcome the probabilistic normalization shift within the attention
mechanism. Specifically, Re-ttention reshapes attention scores based on the
prior softmax distribution history in order to preserve the visual quality of
the full quadratic attention at very high sparsity levels. % Experimental
results on T2V/T2I models such as CogVideoX and the PixArt DiTs demonstrate
that Re-ttention requires as few as 3.1\% of the tokens during inference,
outperforming contemporary methods like FastDiTAttn, Sparse VideoGen and
MInference. Further, we measure latency to show that our method can attain over
45\% end-to-end % and over 92\% self-attention latency reduction on an H100 GPU
at negligible overhead cost.
Code available online here:
https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}Summary
AI-Generated Summary