LazyLLM: 効率的な長文脈LLM推論のための動的トークンプルーニングLazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference
Transformerベースの大規模言語モデルの推論は、2つの連続した段階で構成されています:1) プロンプトのKVキャッシュを計算し、最初のトークンを生成するプリフィリング段階、2) 後続のトークンを生成するデコード段階です。長いプロンプトの場合、プリフィリング段階で全てのトークンのKVキャッシュを計算する必要があり、これにより最初のトークンの生成に要する時間が大幅に増加する可能性があります。その結果、プリフィリング段階が生成プロセスのボトルネックとなることがあります。ここで、最初のトークンを生成するために全てのプロンプトトークンが必須であるかどうかは未解決の問題です。この疑問に答えるため、我々はLazyLLMという新しい手法を提案します。LazyLLMは、プリフィリング段階とデコード段階の両方において、次のトークン予測に重要なトークンのKVを選択的に計算します。プロンプトを一度に刈り込む静的なプルーニング手法とは異なり、LazyLLMは言語モデルが異なる生成ステップでコンテキストから異なるトークンのサブセットを動的に選択することを可能にします。たとえ前のステップで刈り込まれたトークンであってもです。様々なタスクにおける標準データセットでの広範な実験により、LazyLLMが既存の言語モデルにシームレスに統合可能な汎用的な手法であり、ファインチューニングなしで生成を大幅に加速できることが実証されました。例えば、複数ドキュメントの質問応答タスクにおいて、LazyLLMはLLama 2 7Bモデルのプリフィリング段階を2.34倍加速しつつ、精度を維持しました。