ChatPaper.aiChatPaper

Re-ttention: Geração Visual Ultra Esparsa via Remodelagem Estatística da Atenção

Re-ttention: Ultra Sparse Visual Generation via Attention Statistical Reshape

May 28, 2025
Autores: Ruichen Chen, Keith G. Mills, Liyao Jiang, Chao Gao, Di Niu
cs.AI

Resumo

Os Transformadores de Difusão (DiT) tornaram-se o modelo de facto para a geração de conteúdo visual de alta qualidade, como vídeos e imagens. Um grande gargalo é o mecanismo de atenção, cuja complexidade escala quadraticamente com a resolução e a duração do vídeo. Uma maneira lógica de reduzir esse ônus é a atenção esparsa, onde apenas um subconjunto de tokens ou patches é incluído no cálculo. No entanto, as técnicas existentes falham em preservar a qualidade visual em níveis extremamente altos de esparsidade e podem até incorrer em sobrecargas computacionais não negligenciáveis. % Para abordar essa preocupação, propomos o Re-ttention, que implementa atenção esparsa muito alta para modelos de geração visual, aproveitando a redundância temporal dos Modelos de Difusão para superar a mudança de normalização probabilística dentro do mecanismo de atenção. Especificamente, o Re-ttention remodela as pontuações de atenção com base no histórico de distribuição softmax anterior, a fim de preservar a qualidade visual da atenção quadrática completa em níveis muito altos de esparsidade. % Resultados experimentais em modelos T2V/T2I, como o CogVideoX e os DiTs PixArt, demonstram que o Re-ttention requer apenas 3,1\% dos tokens durante a inferência, superando métodos contemporâneos como FastDiTAttn, Sparse VideoGen e MInference. Além disso, medimos a latência para mostrar que nosso método pode atingir uma redução de mais de 45\% de ponta a ponta % e mais de 92\% na latência de auto-atenção em uma GPU H100 com custo de sobrecarga insignificante. Código disponível online aqui: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
English
Diffusion Transformers (DiT) have become the de-facto model for generating high-quality visual content like videos and images. A huge bottleneck is the attention mechanism where complexity scales quadratically with resolution and video length. One logical way to lessen this burden is sparse attention, where only a subset of tokens or patches are included in the calculation. However, existing techniques fail to preserve visual quality at extremely high sparsity levels and might even incur non-negligible compute overheads. % To address this concern, we propose Re-ttention, which implements very high sparse attention for visual generation models by leveraging the temporal redundancy of Diffusion Models to overcome the probabilistic normalization shift within the attention mechanism. Specifically, Re-ttention reshapes attention scores based on the prior softmax distribution history in order to preserve the visual quality of the full quadratic attention at very high sparsity levels. % Experimental results on T2V/T2I models such as CogVideoX and the PixArt DiTs demonstrate that Re-ttention requires as few as 3.1\% of the tokens during inference, outperforming contemporary methods like FastDiTAttn, Sparse VideoGen and MInference. Further, we measure latency to show that our method can attain over 45\% end-to-end % and over 92\% self-attention latency reduction on an H100 GPU at negligible overhead cost. Code available online here: https://github.com/cccrrrccc/Re-ttention{https://github.com/cccrrrccc/Re-ttention}
PDF62December 11, 2025