ChatPaper.aiChatPaper

EpiCache : Gestion du cache KV épisodique pour les systèmes de questions-réponses conversationnelles de longue durée

EpiCache: Episodic KV Cache Management for Long Conversational Question Answering

September 22, 2025
papers.authors: Minsoo Kim, Arnav Kundu, Han-Byul Kim, Richa Dixit, Minsik Cho
cs.AI

papers.abstract

Les récentes avancées dans les modèles de langage de grande taille (LLMs) ont permis d'étendre les longueurs de contexte, permettant aux assistants de maintenir des historiques longs pour des réponses cohérentes et personnalisées. Cette capacité repose cependant sur le cache clé-valeur (KV), dont la mémoire croît linéairement avec la longueur du dialogue et domine rapidement sous des contraintes de ressources strictes. Une ligne de recherche active pour réduire cette surcharge est la compression du cache KV, qui vise à limiter la taille du cache tout en préservant la précision. Cependant, les méthodes existantes font face à deux limitations majeures : (i) l'éviction des entrées après un préremplissage complet du contexte entraîne une mémoire de pointe non bornée, et (ii) l'éviction dépendante de la requête réduit le cache à une seule requête, conduisant à une précision dégradée dans les conversations multi-tours. Nous présentons EpiCache, un cadre de gestion du cache KV sans apprentissage pour les questions-réponses conversationnelles longues (LongConvQA) sous des budgets de mémoire fixes. EpiCache limite la croissance du cache grâce à un préremplissage par blocs et préserve le contexte pertinent via une compression épisodique du cache KV, qui regroupe l'historique de la conversation en épisodes cohérents et applique une éviction spécifique à chaque épisode. Nous concevons également une stratégie d'allocation de budget adaptative par couches qui mesure la sensibilité de chaque couche à l'éviction et distribue le budget de mémoire en conséquence. Sur trois benchmarks LongConvQA, EpiCache améliore la précision jusqu'à 40 % par rapport aux bases de référence récentes, maintient une précision quasi complète du cache KV sous une compression de 4 à 6 fois, et réduit la latence et la mémoire jusqu'à 2,4 fois et 3,5 fois, permettant ainsi une interaction multi-tours efficace sous des contraintes de ressources strictes.
English
Recent advances in large language models (LLMs) have extended context lengths, enabling assistants to sustain long histories for coherent, personalized responses. This ability, however, hinges on Key-Value (KV) caching, whose memory grows linearly with dialogue length and quickly dominates under strict resource constraints. An active line of research for reducing this overhead is KV cache compression, which seeks to limit cache size while preserving accuracy. Yet existing methods face two major limitations: (i) evicting entries after full-context prefill causes unbounded peak memory, and (ii) query-dependent eviction narrows the cache to a single query, leading to degraded accuracy in multi-turn conversations. We introduce EpiCache, a training-free KV cache management framework for long conversational question answering (LongConvQA) under fixed memory budgets. EpiCache bounds cache growth through block-wise prefill and preserves topic-relevant context via episodic KV compression, which clusters conversation history into coherent episodes and applies episode-specific KV cache eviction. We further design an adaptive layer-wise budget allocation strategy that measures each layer's sensitivity to eviction and distributes the memory budget across layers accordingly. Across three LongConvQA benchmarks, EpiCache improves accuracy by up to 40% over recent baselines, sustains near-full KV accuracy under 4-6x compression, and reduces latency and memory by up to 2.4x and 3.5x, thereby enabling efficient multi-turn interaction under strict resource constraints.
PDF183September 23, 2025