SageAttention2 技術レポート: プラグアンドプレイ推論アクセラレーションのための正確な4ビットアテンションSageAttention2 Technical Report: Accurate 4 Bit Attention for
Plug-and-play Inference Acceleration
線形層の量子化は広く使用されていますが、注意機構の高速化に対する適用は限られています。SageAttention は、8ビット行列乗算、16ビット行列乗算と16ビット累算器、精度向上手法を活用し、FlashAttention2 に比べて正確で2倍の高速化カーネルを実装しています。精度を維持しつつ注意計算の効率をさらに向上させるために、SageAttention2 を提案します。これは、より高速な4ビット行列乗算(Matmul)と追加の精度向上技術を活用しています。まず、行列(Q、K)をワープレベルの粒度で INT4 に量子化し、行列(widetilde P、V)を FP8 に量子化することを提案します。次に、Q と V を滑らかにする方法を提案し、INT4 QK と FP8 PV による注意の精度を向上させます。さらに、各タイムステップとレイヤーでの量子化精度を分析し、さまざまなモデルにわたるエンドツーエンドのメトリクスを確保するための適応型量子化手法を提案します。SageAttention2 の1秒あたりの演算回数(OPS)は、RTX4090 上で FlashAttention2 や xformers をそれぞれ約3倍、5倍上回っています。包括的な実験により、大規模言語処理、画像生成、ビデオ生成など多様なモデルにわたって、我々の手法がほとんどエンドツーエンドのメトリクス損失をもたらさないことが確認されました。コードは https://github.com/thu-ml/SageAttention で入手可能です。