ChatPaper.aiChatPaper

LycheeDecode: ハイブリッドヘッド疎デコーディングによる長文脈LLM推論の高速化

LycheeDecode: Accelerating Long-Context LLM Inference via Hybrid-Head Sparse Decoding

February 4, 2026
著者: Gang Lin, Dongfang Li, Zhuoen Chen, Yukun Shi, Xuhui Chen, Baotian Hu, Min Zhang
cs.AI

要旨

長文脈対応の大規模言語モデル(LLM)の普及に伴い、デコーディング時のキー・バリューキャッシュの急激な拡大が重大なボトルネックとして浮上している。これはメモリ負荷と遅延を大幅に増大させる。近年、複数の層間で重要なトークンの集合を単一化して共有する手法が提案されているが、このような粗粒度の共有は、注意ヘッドの機能的多様性を無視するため、モデルの性能低下を招く。この問題を解決するため、我々はハードウェア効率の良いtop-k選択戦略を採用した、細粒度のハイブリッドヘッド注意機構を中核とする効率的なデコーディング手法、LycheeDecodeを提案する。具体的には、新規のHardKumaベースの機構により、注意ヘッドを、重要なトークンを動的に特定する少数の検索ヘッドと、それらを再利用して効率的な計算を行う多数の疎ヘッドに分割する。Llama3やQwen3などの主要モデルを用い、長文脈理解(LongBench、RULER等)や複雑な推論(AIME24、OlympiadBench等)に関する多様なベンチマークで広範な実験を行った結果、LycheeDecodeは完全注意ベースラインに匹敵し、場合によってはそれを凌駕する生成品質を達成することを実証した。決定的な点は、この成果が128Kトークンの文脈長において最大2.7倍の高速化を実現しつつ得られたことである。注意ヘッドの機能的多様性を保持する我々の細粒度戦略は、既存手法の性能ボトルネックを克服し、効率的かつ高品質な長文脈LLM推論への強力かつ検証された道筋を提供する。
English
The proliferation of long-context large language models (LLMs) exposes a key bottleneck: the rapidly expanding key-value cache during decoding, which imposes heavy memory and latency costs. While recent approaches attempt to alleviate this by sharing a single set of crucial tokens across layers, such coarse-grained sharing undermines model performance by neglecting the functional diversity of attention heads. To address this, we propose LycheeDecode, an efficient decoding method centered on a fine-grained hybrid-head attention mechanism that employs a hardware-efficient top-k selection strategy. Specifically, the novel HardKuma-based mechanism partitions attention heads into a small subset of retrieval heads that dynamically identify crucial tokens and a majority of sparse heads that reuse them for efficient computation. Through extensive experiments on leading models like Llama3 and Qwen3 across diverse benchmarks for long-context understanding (e.g., LongBench, RULER) and complex reasoning (e.g., AIME24, OlympiadBench), we demonstrate that LycheeDecode achieves generative quality comparable to, and at times surpassing even the full-attention baseline. Crucially, this is accomplished with up to a 2.7x speedup at a 128K context length. By preserving the functional diversity of attention heads, our fine-grained strategy overcomes the performance bottlenecks of existing methods, providing a powerful and validated pathway to both efficient and high-quality long-context LLM inference.
PDF83March 19, 2026