ChatPaper.aiChatPaper

PAROAttention : Réordonnancement conscient des motifs pour une attention éparse et quantifiée efficace dans les modèles de génération visuelle

PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models

June 19, 2025
Auteurs: Tianchen Zhao, Ke Hong, Xinhao Yang, Xuefeng Xiao, Huixia Li, Feng Ling, Ruiqi Xie, Siqi Chen, Hongyu Zhu, Yichong Zhang, Yu Wang
cs.AI

Résumé

Dans la génération visuelle, la complexité quadratique des mécanismes d'attention entraîne des coûts élevés en mémoire et en calcul, en particulier pour les séquences de tokens plus longues nécessaires dans la génération d'images haute résolution ou de vidéos multi-images. Pour y remédier, des recherches antérieures ont exploré des techniques telles que la sparsification et la quantification. Cependant, ces techniques rencontrent des défis importants sous de faibles densités et des largeurs de bits réduites. À travers une analyse systématique, nous identifions que la difficulté principale découle des caractéristiques dispersées et irrégulières des motifs d'attention visuelle. Par conséquent, au lieu d'introduire des conceptions spécialisées de sparsification et de quantification pour s'adapter à ces motifs, nous proposons une stratégie alternative : *réorganiser* le motif d'attention pour atténuer ces défis. Inspirés par la nature d'agrégation locale de l'extraction de caractéristiques visuelles, nous concevons une nouvelle technique **Pattern-Aware token ReOrdering (PARO)**, qui unifie les divers motifs d'attention en un motif par blocs adapté au matériel. Cette unification simplifie et améliore considérablement à la fois la sparsification et la quantification. Nous évaluons les compromis performance-efficacité de divers choix de conception et finalisons une méthodologie adaptée au motif unifié. Notre approche, **PAROAttention**, permet la génération de vidéos et d'images avec des métriques sans perte, et des résultats presque identiques aux références en pleine précision (FP), tout en opérant à des densités notablement plus faibles (~20%-30%) et des largeurs de bits réduites (**INT8/INT4**), atteignant une accélération de latence de bout en bout de **1,9x** à **2,7x**.
English
In visual generation, the quadratic complexity of attention mechanisms results in high memory and computational costs, especially for longer token sequences required in high-resolution image or multi-frame video generation. To address this, prior research has explored techniques such as sparsification and quantization. However, these techniques face significant challenges under low density and reduced bitwidths. Through systematic analysis, we identify that the core difficulty stems from the dispersed and irregular characteristics of visual attention patterns. Therefore, instead of introducing specialized sparsification and quantization design to accommodate such patterns, we propose an alternative strategy: *reorganizing* the attention pattern to alleviate the challenges. Inspired by the local aggregation nature of visual feature extraction, we design a novel **Pattern-Aware token ReOrdering (PARO)** technique, which unifies the diverse attention patterns into a hardware-friendly block-wise pattern. This unification substantially simplifies and enhances both sparsification and quantization. We evaluate the performance-efficiency trade-offs of various design choices and finalize a methodology tailored for the unified pattern. Our approach, **PAROAttention**, achieves video and image generation with lossless metrics, and nearly identical results from full-precision (FP) baselines, while operating at notably lower density (~20%-30%) and bitwidth (**INT8/INT4**), achieving a **1.9x** to **2.7x** end-to-end latency speedup.
PDF532June 23, 2025