Sie benötigen einen Encoder für natives positionsunabhängiges Caching.

papers.abstract

Der Key-Value (KV)-Cache von Large Language Models (LLMs) ist präfixbasiert, was die Verarbeitung von Kontexten in beliebiger Reihenfolge äußerst ineffizient macht. Position-Independent Caching (PIC) wurde vorgeschlagen, um die Wiederverwendung von KV-Caches ohne Positionsbeschränkungen zu ermöglichen; bestehende Ansätze führen jedoch oft zu erheblichen Genauigkeitseinbußen, was ihre praktische Anwendung einschränkt. Um dieses Problem zu lösen, schlagen wir natives PIC vor, indem wir einen Encoder in verbreitete decoder-only LLMs reintegrieren und diesen explizit für die PIC-Unterstützung trainieren. Wir entwickeln weiterhin COMB, ein PIC-fähiges Caching-System, das nahtlos in bestehende Inferenz-Frameworks integriert werden kann. Experimentelle Ergebnisse zeigen, dass COMB die Time-to-First-Token (TTFT) um 51–94 % reduziert und den Durchsatz bei vergleichbarer Genauigkeit verdreifacht. Darüber hinaus demonstriert die Qualitätsverbesserung bei der Verwendung von DeepSeek-V2-Lite-Chat die Anwendbarkeit von COMB auf andere Arten von decoder-only LLMs. Unser Code ist verfügbar unter https://github.com/shijuzhao/Comb.

English

The Key-Value (KV) cache of Large Language Models (LLMs) is prefix-based, making it highly inefficient for processing contexts retrieved in arbitrary order. Position-Independent Caching (PIC) has been proposed to enable KV reuse without positional constraints; however, existing approaches often incur substantial accuracy degradation, limiting their practical adoption. To address this issue, we propose native PIC by reintroducing the encoder to prevalent decoder-only LLMs and explicitly training it to support PIC. We further develop COMB, a PIC-aware caching system that integrates seamlessly with existing inference frameworks. Experimental results show that COMB reduces Time-to-First-Token (TTFT) by 51-94% and increases throughput by 3times with comparable accuracy. Furthermore, the quality improvement when using DeepSeek-V2-Lite-Chat demonstrates the applicability of COMB to other types of decoder-only LLMs. Our code is available at https://github.com/shijuzhao/Comb.

Sie benötigen einen Encoder für natives positionsunabhängiges Caching.

You Need an Encoder for Native Position-Independent Caching

papers.abstract

Support