ブロックトランスフォーマー:高速推論のためのグローバルからローカルへの言語モデリングBlock Transformer: Global-to-Local Language Modeling for Fast Inference
本論文では、自己注意機構の推論ボトルネックを緩和するため、階層的なグローバルからローカルへのモデリングを自己回帰型トランスフォーマーに適用したBlock Transformerアーキテクチャを提案する。自己注意機構を適用する際、すべての過去のシーケンスのキー・バリュー(KV)キャッシュを各デコードステップでメモリから取得する必要がある。これにより、このKVキャッシュの入出力(IO)がバッチ推論における重大なボトルネックとなる。我々は、これらのコストがグローバルコンテキストに自己注意を適用することに起因していることに気づき、グローバルモデリングの高コストなボトルネックを下位層に分離し、上位層では高速なローカルモデリングを適用する。下位層での残りのコストを緩和するため、入力トークンを固定サイズのブロックに集約し、この粗いレベルで自己注意を適用する。コンテキスト情報は単一の埋め込みに集約され、上位層がグローバル注意なしで次のトークンブロックをデコードできるようにする。グローバル注意のボトルネックから解放された上位層は、計算ハードウェアを最大限に活用して推論スループットを最大化できる。グローバルモジュールとローカルモジュールを活用することで、Block Transformerアーキテクチャは同等のパープレキシティを持つ従来のトランスフォーマーと比較して10~20倍の推論スループット向上を示す。本研究は、グローバルからローカルへのモデリングの新たな応用を通じて言語モデルの推論を最適化する新しいアプローチを導入する。コードはhttps://github.com/itsnamgyu/block-transformerで公開されている。