Re-ttention: Ultra-sparse visuelle Generierung durch statistische Neugestaltung von Aufmerksamkeit

papers.abstract

Diffusion Transformers (DiT) haben sich als de-facto Modell für die Erzeugung hochwertiger visueller Inhalte wie Videos und Bilder etabliert. Ein erheblicher Engpass ist der Aufmerksamkeitsmechanismus, dessen Komplexität quadratisch mit der Auflösung und der Videolänge skaliert. Ein logischer Ansatz, um diese Belastung zu verringern, ist die spärliche Aufmerksamkeit (sparse attention), bei der nur eine Teilmenge von Tokens oder Patches in die Berechnung einbezogen wird. Bestehende Techniken scheitern jedoch daran, die visuelle Qualität bei extrem hohen Sparsamkeitsniveaus zu erhalten und können sogar nicht vernachlässigbare Rechenkosten verursachen. Um dieses Problem zu lösen, schlagen wir Re-ttention vor, das eine sehr hohe spärliche Aufmerksamkeit für visuelle Generierungsmodelle implementiert, indem es die zeitliche Redundanz von Diffusion Models nutzt, um die probabilistische Normalisierungsverschiebung innerhalb des Aufmerksamkeitsmechanismus zu überwinden. Konkret formt Re-ttention die Aufmerksamkeitswerte basierend auf der vorherigen Softmax-Verteilungshistorie um, um die visuelle Qualität der vollständigen quadratischen Aufmerksamkeit bei sehr hohen Sparsamkeitsniveaus zu bewahren. Experimentelle Ergebnisse an T2V/T2I-Modellen wie CogVideoX und den PixArt DiTs zeigen, dass Re-ttention während der Inferenz nur 3,1 % der Tokens benötigt und dabei zeitgenössische Methoden wie FastDiTAttn, Sparse VideoGen und MInference übertrifft. Darüber hinaus messen wir die Latenz, um zu zeigen, dass unsere Methode eine End-to-End-Reduktion von über 45 % und eine Selbstaufmerksamkeitslatenzreduktion von über 92 % auf einer H100-GPU bei vernachlässigbaren Zusatzkosten erreichen kann. Code verfügbar unter: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}

English

Diffusion Transformers (DiT) have become the de-facto model for generating high-quality visual content like videos and images. A huge bottleneck is the attention mechanism where complexity scales quadratically with resolution and video length. One logical way to lessen this burden is sparse attention, where only a subset of tokens or patches are included in the calculation. However, existing techniques fail to preserve visual quality at extremely high sparsity levels and might even incur non-negligible compute overheads. % To address this concern, we propose Re-ttention, which implements very high sparse attention for visual generation models by leveraging the temporal redundancy of Diffusion Models to overcome the probabilistic normalization shift within the attention mechanism. Specifically, Re-ttention reshapes attention scores based on the prior softmax distribution history in order to preserve the visual quality of the full quadratic attention at very high sparsity levels. % Experimental results on T2V/T2I models such as CogVideoX and the PixArt DiTs demonstrate that Re-ttention requires as few as 3.1\% of the tokens during inference, outperforming contemporary methods like FastDiTAttn, Sparse VideoGen and MInference. Further, we measure latency to show that our method can attain over 45\% end-to-end % and over 92\% self-attention latency reduction on an H100 GPU at negligible overhead cost. Code available online here: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}

Re-ttention: Ultra-sparse visuelle Generierung durch statistische Neugestaltung von Aufmerksamkeit

Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape

papers.abstract

Support