コンテキストを見逃さない:Infini-attentionによる効率的な無限コンテキストTransformerLeave No Context Behind: Efficient Infinite Context Transformers with
Infini-attention
本研究では、Transformerベースの大規模言語モデル(LLM)を、メモリと計算量を制限しながら無限に長い入力にスケールする効率的な手法を提案します。提案手法の鍵となる要素は、Infini-attentionと呼ばれる新しいアテンション技術です。Infini-attentionは、標準的なアテンションメカニズムに圧縮メモリを組み込み、マスクされたローカルアテンションと長期的な線形アテンションメカニズムを単一のTransformerブロック内に構築します。我々は、長文脈言語モデリングベンチマーク、100万シーケンス長のパスキーコンテキストブロック検索、および500K長の書籍要約タスクにおいて、10億パラメータと80億パラメータのLLMを用いて本手法の有効性を実証しました。提案手法は、最小限の制限付きメモリパラメータを導入し、LLMの高速ストリーミング推論を可能にします。