Re-ttention: Generación visual ultra escasa mediante remodelado estadístico de atención
Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape
May 28, 2025
Autores: Ruichen Chen, Keith G. Mills, Liyao Jiang, Chao Gao, Di Niu
cs.AI
Resumen
Los Transformadores de Difusión (DiT) se han convertido en el modelo de facto para generar contenido visual de alta calidad, como videos e imágenes. Un gran cuello de botella es el mecanismo de atención, cuya complejidad escala cuadráticamente con la resolución y la duración del video. Una forma lógica de aliviar esta carga es mediante la atención dispersa, donde solo un subconjunto de tokens o parches se incluye en el cálculo. Sin embargo, las técnicas existentes no logran preservar la calidad visual en niveles de dispersión extremadamente altos e incluso pueden incurrir en sobrecargas computacionales no despreciables. Para abordar este problema, proponemos Re-ttention, que implementa una atención muy dispersa para modelos de generación visual aprovechando la redundancia temporal de los Modelos de Difusión para superar el cambio de normalización probabilística dentro del mecanismo de atención. Específicamente, Re-ttention remodela los puntajes de atención basándose en el historial de distribución softmax previo para preservar la calidad visual de la atención cuadrática completa en niveles de dispersión muy altos. Los resultados experimentales en modelos T2V/T2I como CogVideoX y los DiT de PixArt demuestran que Re-ttention requiere tan solo el 3.1\% de los tokens durante la inferencia, superando métodos contemporáneos como FastDiTAttn, Sparse VideoGen y MInference. Además, medimos la latencia para mostrar que nuestro método puede lograr una reducción de más del 45\% en la latencia de extremo a extremo y más del 92\% en la latencia de auto-atención en una GPU H100 con un costo de sobrecarga insignificante.
Código disponible en línea aquí:
https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
English
Diffusion Transformers (DiT) have become the de-facto model for generating
high-quality visual content like videos and images. A huge bottleneck is the
attention mechanism where complexity scales quadratically with resolution and
video length. One logical way to lessen this burden is sparse attention, where
only a subset of tokens or patches are included in the calculation. However,
existing techniques fail to preserve visual quality at extremely high sparsity
levels and might even incur non-negligible compute overheads. % To address this
concern, we propose Re-ttention, which implements very high sparse attention
for visual generation models by leveraging the temporal redundancy of Diffusion
Models to overcome the probabilistic normalization shift within the attention
mechanism. Specifically, Re-ttention reshapes attention scores based on the
prior softmax distribution history in order to preserve the visual quality of
the full quadratic attention at very high sparsity levels. % Experimental
results on T2V/T2I models such as CogVideoX and the PixArt DiTs demonstrate
that Re-ttention requires as few as 3.1\% of the tokens during inference,
outperforming contemporary methods like FastDiTAttn, Sparse VideoGen and
MInference. Further, we measure latency to show that our method can attain over
45\% end-to-end % and over 92\% self-attention latency reduction on an H100 GPU
at negligible overhead cost.
Code available online here:
https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}Summary
AI-Generated Summary