SageAttention2++: Un'implementazione più efficiente di SageAttention2

Abstract

L'efficienza dell'attenzione è cruciale poiché la sua complessità temporale cresce quadraticamente con la lunghezza della sequenza. SageAttention2 affronta questo problema utilizzando la quantizzazione per accelerare le moltiplicazioni di matrici (Matmul) nell'attenzione. Per accelerare ulteriormente SageAttention2, proponiamo di utilizzare l'istruzione più veloce di Matmul FP8 accumulata in FP16. Questa istruzione è 2 volte più veloce rispetto alla Matmul FP8 utilizzata in SageAttention2. I nostri esperimenti dimostrano che SageAttention2++ raggiunge un'accelerazione di 3,9 volte rispetto a FlashAttention, mantenendo la stessa precisione dell'attenzione di SageAttention2. Ciò significa che SageAttention2++ accelera efficacemente vari modelli, inclusi quelli per la generazione di linguaggio, immagini e video, con una perdita trascurabile nelle metriche end-to-end. Il codice sarà disponibile all'indirizzo https://github.com/thu-ml/SageAttention.

English

The efficiency of attention is critical because its time complexity grows quadratically with sequence length. SageAttention2 addresses this by utilizing quantization to accelerate matrix multiplications (Matmul) in attention. To further accelerate SageAttention2, we propose to utilize the faster instruction of FP8 Matmul accumulated in FP16. The instruction is 2x faster than the FP8 Matmul used in SageAttention2. Our experiments show that SageAttention2++ achieves a 3.9x speedup over FlashAttention while maintaining the same attention accuracy as SageAttention2. This means SageAttention2++ effectively accelerates various models, including those for language, image, and video generation, with negligible end-to-end metrics loss. The code will be available at https://github.com/thu-ml/SageAttention.

SageAttention2++: Un'implementazione più efficiente di SageAttention2

SageAttention2++: A More Efficient Implementation of SageAttention2

Abstract

Support