U hebt een encoder nodig voor systeemeigen positie-onafhankelijke caching

Samenvatting

De Key-Value (KV)-cache van Large Language Models (LLM's) is prefix-gebaseerd, wat het zeer inefficiënt maakt voor het verwerken van contexten die in willekeurige volgorde worden opgehaald. Position-Independent Caching (PIC) is voorgesteld om KV-hergebruik mogelijk te maken zonder positionele beperkingen; bestaande benaderingen leiden echter vaak tot aanzienlijke nauwkeurigheidsverliezen, wat hun praktische adoptie beperkt. Om dit probleem aan te pakken, stellen we native PIC voor door de encoder opnieuw te introduceren in gangbare decoder-only LLM's en deze expliciet te trainen om PIC te ondersteunen. We ontwikkelen verder COMB, een PIC-bewust cachesysteem dat naadloos integreert met bestaande inferentieframeworks. Experimentele resultaten tonen aan dat COMB de Time-to-First-Token (TTFT) met 51-94% vermindert en de doorvoer verdrievoudigt met vergelijkbare nauwkeurigheid. Bovendien toont de kwaliteitsverbetering bij gebruik van DeepSeek-V2-Lite-Chat de toepasbaarheid van COMB op andere typen decoder-only LLM's aan. Onze code is beschikbaar op https://github.com/shijuzhao/Comb.

English

The Key-Value (KV) cache of Large Language Models (LLMs) is prefix-based, making it highly inefficient for processing contexts retrieved in arbitrary order. Position-Independent Caching (PIC) has been proposed to enable KV reuse without positional constraints; however, existing approaches often incur substantial accuracy degradation, limiting their practical adoption. To address this issue, we propose native PIC by reintroducing the encoder to prevalent decoder-only LLMs and explicitly training it to support PIC. We further develop COMB, a PIC-aware caching system that integrates seamlessly with existing inference frameworks. Experimental results show that COMB reduces Time-to-First-Token (TTFT) by 51-94% and increases throughput by 3times with comparable accuracy. Furthermore, the quality improvement when using DeepSeek-V2-Lite-Chat demonstrates the applicability of COMB to other types of decoder-only LLMs. Our code is available at https://github.com/shijuzhao/Comb.

U hebt een encoder nodig voor systeemeigen positie-onafhankelijke caching

You Need an Encoder for Native Position-Independent Caching

Samenvatting

Support