ChatPaper.aiChatPaper

ネイティブな位置独立キャッシングにはエンコーダが必要

You Need an Encoder for Native Position-Independent Caching

February 2, 2026
著者: Shiju Zhao, Junhao Hu, Jiaqi Zheng, Guihai Chen
cs.AI

要旨

大規模言語モデル(LLM)のキー・バリュー(KV)キャッシュはプレフィックスベースであるため、任意の順序で取得されたコンテキストを処理する際に極めて非効率となる。位置に依存しないキャッシング(PIC)は位置制約なしでのKV再利用を可能にするが、既存手法では精度の大幅な低下が生じやすく、実用化が限られている。この問題を解決するため、我々は広く使われているデコーダのみのLLMにエンコーダを再導入し、PICをサポートするよう明示的に学習させることで、ネイティブなPICを提案する。さらに、既存の推論フレームワークとシームレスに統合するPIC対応キャッシングシステムCOMBを開発した。実験結果では、COMBが初トークンまでの時間(TTFT)を51~94%短縮し、スループットを精度を維持したまま3倍向上させることが示された。さらに、DeepSeek-V2-Lite-Chatを使用した際の品質向上は、COMBが他のタイプのデコーダのみLLMにも適用可能であることを実証している。コードはhttps://github.com/shijuzhao/Comb で公開されている。
English
The Key-Value (KV) cache of Large Language Models (LLMs) is prefix-based, making it highly inefficient for processing contexts retrieved in arbitrary order. Position-Independent Caching (PIC) has been proposed to enable KV reuse without positional constraints; however, existing approaches often incur substantial accuracy degradation, limiting their practical adoption. To address this issue, we propose native PIC by reintroducing the encoder to prevalent decoder-only LLMs and explicitly training it to support PIC. We further develop COMB, a PIC-aware caching system that integrates seamlessly with existing inference frameworks. Experimental results show that COMB reduces Time-to-First-Token (TTFT) by 51-94% and increases throughput by 3times with comparable accuracy. Furthermore, the quality improvement when using DeepSeek-V2-Lite-Chat demonstrates the applicability of COMB to other types of decoder-only LLMs. Our code is available at https://github.com/shijuzhao/Comb.
PDF01February 5, 2026