EpiCache: Episodische KV-Cache-Verwaltung für lange konversationelle Frage-Antwort-Systeme
EpiCache: Episodic KV Cache Management for Long Conversational Question Answering
September 22, 2025
papers.authors: Minsoo Kim, Arnav Kundu, Han-Byul Kim, Richa Dixit, Minsik Cho
cs.AI
papers.abstract
Jüngste Fortschritte bei großen Sprachmodellen (LLMs) haben die Kontextlängen erweitert, wodurch Assistenten in der Lage sind, lange Historie zu speichern, um kohärente und personalisierte Antworten zu liefern. Diese Fähigkeit hängt jedoch vom Key-Value (KV)-Caching ab, dessen Speicherbedarf linear mit der Dialoglänge wächst und unter strengen Ressourcenbeschränkungen schnell dominiert. Eine aktive Forschungsrichtung zur Reduzierung dieses Overheads ist die KV-Cache-Komprimierung, die darauf abzielt, die Cache-Größe zu begrenzen, während die Genauigkeit erhalten bleibt. Bisherige Methoden stehen jedoch vor zwei großen Herausforderungen: (i) Das Entfernen von Einträgen nach dem vollständigen Kontext-Prefill führt zu unbegrenztem Spitzenspeicherbedarf, und (ii) abfrageabhängiges Entfernen verengt den Cache auf eine einzelne Abfrage, was zu einer verringerten Genauigkeit in mehrschrittigen Konversationen führt. Wir stellen EpiCache vor, ein trainingsfreies KV-Cache-Management-Framework für langfristige konversationelle Frage-Antwort-Systeme (LongConvQA) unter festen Speicherbudgets. EpiCache begrenzt das Cache-Wachstum durch blockweises Prefill und bewahrt themenrelevante Kontexte durch episodische KV-Komprimierung, die die Konversationshistorie in kohärente Episoden clustert und episodenspezifische KV-Cache-Entfernung anwendet. Wir entwickeln außerdem eine adaptive, schichtenweise Budgetzuweisungsstrategie, die die Empfindlichkeit jeder Schicht gegenüber der Entfernung misst und das Speicherbudget entsprechend über die Schichten verteilt. In drei LongConvQA-Benchmarks verbessert EpiCache die Genauigkeit um bis zu 40 % im Vergleich zu aktuellen Baselines, erhält nahezu vollständige KV-Genauigkeit bei 4-6-facher Komprimierung und reduziert Latenz und Speicherbedarf um bis zu 2,4x bzw. 3,5x, wodurch effiziente mehrschrittige Interaktionen unter strengen Ressourcenbeschränkungen ermöglicht werden.
English
Recent advances in large language models (LLMs) have extended context
lengths, enabling assistants to sustain long histories for coherent,
personalized responses. This ability, however, hinges on Key-Value (KV)
caching, whose memory grows linearly with dialogue length and quickly dominates
under strict resource constraints. An active line of research for reducing this
overhead is KV cache compression, which seeks to limit cache size while
preserving accuracy. Yet existing methods face two major limitations: (i)
evicting entries after full-context prefill causes unbounded peak memory, and
(ii) query-dependent eviction narrows the cache to a single query, leading to
degraded accuracy in multi-turn conversations. We introduce EpiCache, a
training-free KV cache management framework for long conversational question
answering (LongConvQA) under fixed memory budgets. EpiCache bounds cache growth
through block-wise prefill and preserves topic-relevant context via episodic KV
compression, which clusters conversation history into coherent episodes and
applies episode-specific KV cache eviction. We further design an adaptive
layer-wise budget allocation strategy that measures each layer's sensitivity to
eviction and distributes the memory budget across layers accordingly. Across
three LongConvQA benchmarks, EpiCache improves accuracy by up to 40% over
recent baselines, sustains near-full KV accuracy under 4-6x compression, and
reduces latency and memory by up to 2.4x and 3.5x, thereby enabling efficient
multi-turn interaction under strict resource constraints.