ChatPaper.aiChatPaper

PAROAttention: Переупорядочивание с учетом шаблонов для эффективного разреженного и квантованного внимания в моделях визуальной генерации

PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models

June 19, 2025
Авторы: Tianchen Zhao, Ke Hong, Xinhao Yang, Xuefeng Xiao, Huixia Li, Feng Ling, Ruiqi Xie, Siqi Chen, Hongyu Zhu, Yichong Zhang, Yu Wang
cs.AI

Аннотация

В задачах визуальной генерации квадратичная сложность механизмов внимания приводит к высоким затратам памяти и вычислительных ресурсов, особенно для длинных последовательностей токенов, необходимых при генерации изображений высокого разрешения или многофреймовых видео. Для решения этой проблемы в предыдущих исследованиях изучались такие методы, как разрежение и квантование. Однако эти методы сталкиваются с существенными трудностями при низкой плотности и уменьшенной разрядности. В результате систематического анализа мы выявили, что основная сложность связана с рассеянным и нерегулярным характером паттернов визуального внимания. Поэтому вместо разработки специализированных методов разрежения и квантования для адаптации к таким паттернам мы предлагаем альтернативную стратегию: *реорганизацию* паттерна внимания для смягчения этих трудностей. Вдохновленные локальной агрегацией при извлечении визуальных признаков, мы разработали новую технику **Pattern-Aware token ReOrdering (PARO)**, которая объединяет разнообразные паттерны внимания в удобный для аппаратного обеспечения блочный паттерн. Такая унификация значительно упрощает и улучшает как разрежение, так и квантование. Мы оценили компромиссы между производительностью и эффективностью для различных вариантов проектирования и разработали методологию, адаптированную для унифицированного паттерна. Наш подход, **PAROAttention**, позволяет генерировать видео и изображения с сохранением метрик без потерь и практически идентичными результатами по сравнению с базовыми моделями с полной точностью (FP), при этом работая с заметно меньшей плотностью (~20%-30%) и разрядностью (**INT8/INT4**), достигая ускорения сквозной задержки в **1.9x** до **2.7x**.
English
In visual generation, the quadratic complexity of attention mechanisms results in high memory and computational costs, especially for longer token sequences required in high-resolution image or multi-frame video generation. To address this, prior research has explored techniques such as sparsification and quantization. However, these techniques face significant challenges under low density and reduced bitwidths. Through systematic analysis, we identify that the core difficulty stems from the dispersed and irregular characteristics of visual attention patterns. Therefore, instead of introducing specialized sparsification and quantization design to accommodate such patterns, we propose an alternative strategy: *reorganizing* the attention pattern to alleviate the challenges. Inspired by the local aggregation nature of visual feature extraction, we design a novel **Pattern-Aware token ReOrdering (PARO)** technique, which unifies the diverse attention patterns into a hardware-friendly block-wise pattern. This unification substantially simplifies and enhances both sparsification and quantization. We evaluate the performance-efficiency trade-offs of various design choices and finalize a methodology tailored for the unified pattern. Our approach, **PAROAttention**, achieves video and image generation with lossless metrics, and nearly identical results from full-precision (FP) baselines, while operating at notably lower density (~20%-30%) and bitwidth (**INT8/INT4**), achieving a **1.9x** to **2.7x** end-to-end latency speedup.
PDF532June 23, 2025