ChatPaper.aiChatPaper

EpiCache: Episodisch KV-cachebeheer voor langdurige conversatievraagbeantwoording

EpiCache: Episodic KV Cache Management for Long Conversational Question Answering

September 22, 2025
Auteurs: Minsoo Kim, Arnav Kundu, Han-Byul Kim, Richa Dixit, Minsik Cho
cs.AI

Samenvatting

Recente ontwikkelingen in grote taalmodellen (LLMs) hebben de contextlengtes uitgebreid, waardoor assistenten langere geschiedenissen kunnen behouden voor coherente, gepersonaliseerde antwoorden. Deze mogelijkheid hangt echter af van Key-Value (KV) caching, waarvan het geheugen lineair groeit met de dialooglengte en snel dominant wordt onder strikte resourcebeperkingen. Een actieve onderzoekslijn om deze overhead te verminderen is KV-cachecompressie, die streeft naar het beperken van de cachegrootte terwijl de nauwkeurigheid behouden blijft. Toch kampen bestaande methoden met twee belangrijke beperkingen: (i) het verwijderen van items na volledige contextprefill veroorzaakt onbegrensde piekgeheugen, en (ii) query-afhankelijke verwijdering beperkt de cache tot een enkele query, wat leidt tot verminderde nauwkeurigheid in meerzijdige gesprekken. Wij introduceren EpiCache, een trainingsvrij KV-cachebeheerframework voor langdurige conversatievraag-antwoord (LongConvQA) onder vaste geheugenbudgetten. EpiCache beperkt de cachegroei door bloksgewijze prefill en behoudt onderwerpgerelateerde context via episodische KV-compressie, waarbij de gespreksgeschiedenis wordt gegroepeerd in coherente episodes en episode-specifieke KV-cacheverwijdering wordt toegepast. We ontwerpen verder een adaptieve laaggewijze budgettoewijzingsstrategie die de gevoeligheid van elke laag voor verwijdering meet en het geheugenbudget dienovereenkomstig over de lagen verdeelt. Over drie LongConvQA-benchmarks verbetert EpiCache de nauwkeurigheid met tot 40% ten opzichte van recente baselines, behoudt bijna volledige KV-nauwkeurigheid onder 4-6x compressie, en reduceert latentie en geheugen met tot 2.4x en 3.5x, waardoor efficiënte meerzijdige interactie mogelijk wordt onder strikte resourcebeperkingen.
English
Recent advances in large language models (LLMs) have extended context lengths, enabling assistants to sustain long histories for coherent, personalized responses. This ability, however, hinges on Key-Value (KV) caching, whose memory grows linearly with dialogue length and quickly dominates under strict resource constraints. An active line of research for reducing this overhead is KV cache compression, which seeks to limit cache size while preserving accuracy. Yet existing methods face two major limitations: (i) evicting entries after full-context prefill causes unbounded peak memory, and (ii) query-dependent eviction narrows the cache to a single query, leading to degraded accuracy in multi-turn conversations. We introduce EpiCache, a training-free KV cache management framework for long conversational question answering (LongConvQA) under fixed memory budgets. EpiCache bounds cache growth through block-wise prefill and preserves topic-relevant context via episodic KV compression, which clusters conversation history into coherent episodes and applies episode-specific KV cache eviction. We further design an adaptive layer-wise budget allocation strategy that measures each layer's sensitivity to eviction and distributes the memory budget across layers accordingly. Across three LongConvQA benchmarks, EpiCache improves accuracy by up to 40% over recent baselines, sustains near-full KV accuracy under 4-6x compression, and reduces latency and memory by up to 2.4x and 3.5x, thereby enabling efficient multi-turn interaction under strict resource constraints.
PDF194September 23, 2025