SageAttention2++: Un'implementazione più efficiente di SageAttention2
SageAttention2++: A More Efficient Implementation of SageAttention2
May 27, 2025
Autori: Jintao Zhang, Xiaoming Xu, Jia Wei, Haofeng Huang, Pengle Zhang, Chendong Xiang, Jun Zhu, Jianfei Chen
cs.AI
Abstract
L'efficienza dell'attenzione è cruciale poiché la sua complessità temporale cresce quadraticamente con la lunghezza della sequenza. SageAttention2 affronta questo problema utilizzando la quantizzazione per accelerare le moltiplicazioni di matrici (Matmul) nell'attenzione. Per accelerare ulteriormente SageAttention2, proponiamo di utilizzare l'istruzione più veloce di Matmul FP8 accumulata in FP16. Questa istruzione è 2 volte più veloce rispetto alla Matmul FP8 utilizzata in SageAttention2. I nostri esperimenti dimostrano che SageAttention2++ raggiunge un'accelerazione di 3,9 volte rispetto a FlashAttention, mantenendo la stessa precisione dell'attenzione di SageAttention2. Ciò significa che SageAttention2++ accelera efficacemente vari modelli, inclusi quelli per la generazione di linguaggio, immagini e video, con una perdita trascurabile nelle metriche end-to-end. Il codice sarà disponibile all'indirizzo https://github.com/thu-ml/SageAttention.
English
The efficiency of attention is critical because its time complexity grows
quadratically with sequence length. SageAttention2 addresses this by utilizing
quantization to accelerate matrix multiplications (Matmul) in attention. To
further accelerate SageAttention2, we propose to utilize the faster instruction
of FP8 Matmul accumulated in FP16. The instruction is 2x faster than the FP8
Matmul used in SageAttention2. Our experiments show that SageAttention2++
achieves a 3.9x speedup over FlashAttention while maintaining the same
attention accuracy as SageAttention2. This means SageAttention2++ effectively
accelerates various models, including those for language, image, and video
generation, with negligible end-to-end metrics loss. The code will be available
at https://github.com/thu-ml/SageAttention.