SageAttention2 技術報告:精確的 4 位元注意力機制
用於即插即用推論加速SageAttention2 Technical Report: Accurate 4 Bit Attention for
Plug-and-play Inference Acceleration
儘管量化在線性層上被廣泛應用,但其在加速注意力過程方面的應用仍然有限。SageAttention利用8位元矩陣乘法、16位元矩陣乘法與16位元累加器,以及精度增強方法,實現了比FlashAttention2更準確且2倍加速的核心。為了進一步提高注意力計算的效率並保持精度,我們提出了SageAttention2,該方法採用明顯更快速的4位元矩陣乘法(Matmul)以及額外的精度增強技術。首先,我們建議將矩陣(Q、K)以warp級別的粒度量化為INT4,並將矩陣(widetilde P、V)量化為FP8。其次,我們提出了一種平滑Q和V的方法,增強了使用INT4 QK和FP8 PV的注意力的準確性。第三,我們分析了不同時間步長和層之間的量化準確性,然後提出了一種自適應量化方法,以確保各種模型的端到端指標。SageAttention2的每秒操作次數(OPS)在RTX4090上超過FlashAttention2和xformers約3倍和5倍。全面的實驗證實了我們的方法在各種模型上,包括大型語言處理、圖像生成和視頻生成模型上,幾乎沒有造成端到端指標損失。代碼可在https://github.com/thu-ml/SageAttention找到。