ChatPaper.aiChatPaper

EpiCache: Gestione della Cache KV Episodica per il Risponditore a Domande Conversazionali di Lunga Durata

EpiCache: Episodic KV Cache Management for Long Conversational Question Answering

September 22, 2025
Autori: Minsoo Kim, Arnav Kundu, Han-Byul Kim, Richa Dixit, Minsik Cho
cs.AI

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLMs) hanno esteso la lunghezza dei contesti, consentendo agli assistenti di mantenere storie lunghe per risposte coerenti e personalizzate. Questa capacità, tuttavia, dipende dalla memorizzazione chiave-valore (KV), la cui memoria cresce linearmente con la lunghezza del dialogo e diventa rapidamente dominante sotto vincoli di risorse rigidi. Una linea di ricerca attiva per ridurre questo sovraccarico è la compressione della cache KV, che mira a limitare la dimensione della cache preservando l'accuratezza. Tuttavia, i metodi esistenti affrontano due limitazioni principali: (i) l'eliminazione delle voci dopo il prefill del contesto completo causa un picco di memoria illimitato, e (ii) l'eliminazione dipendente dalla query restringe la cache a una singola query, portando a un'accuratezza degradata nelle conversazioni multi-turn. Introduciamo EpiCache, un framework di gestione della cache KV senza addestramento per il question answering conversazionale lungo (LongConvQA) sotto budget di memoria fissi. EpiCache limita la crescita della cache attraverso il prefill a blocchi e preserva il contesto rilevante per l'argomento tramite la compressione episodica KV, che raggruppa la storia della conversazione in episodi coerenti e applica l'eliminazione della cache KV specifica per episodio. Progettiamo inoltre una strategia adattiva di allocazione del budget a livello di layer che misura la sensibilità di ciascun layer all'eliminazione e distribuisce il budget di memoria tra i layer di conseguenza. Su tre benchmark LongConvQA, EpiCache migliora l'accuratezza fino al 40% rispetto ai baselines recenti, mantiene un'accuratezza KV quasi completa sotto compressioni di 4-6x, e riduce la latenza e la memoria fino a 2.4x e 3.5x, consentendo così un'interazione multi-turn efficiente sotto vincoli di risorse rigidi.
English
Recent advances in large language models (LLMs) have extended context lengths, enabling assistants to sustain long histories for coherent, personalized responses. This ability, however, hinges on Key-Value (KV) caching, whose memory grows linearly with dialogue length and quickly dominates under strict resource constraints. An active line of research for reducing this overhead is KV cache compression, which seeks to limit cache size while preserving accuracy. Yet existing methods face two major limitations: (i) evicting entries after full-context prefill causes unbounded peak memory, and (ii) query-dependent eviction narrows the cache to a single query, leading to degraded accuracy in multi-turn conversations. We introduce EpiCache, a training-free KV cache management framework for long conversational question answering (LongConvQA) under fixed memory budgets. EpiCache bounds cache growth through block-wise prefill and preserves topic-relevant context via episodic KV compression, which clusters conversation history into coherent episodes and applies episode-specific KV cache eviction. We further design an adaptive layer-wise budget allocation strategy that measures each layer's sensitivity to eviction and distributes the memory budget across layers accordingly. Across three LongConvQA benchmarks, EpiCache improves accuracy by up to 40% over recent baselines, sustains near-full KV accuracy under 4-6x compression, and reduces latency and memory by up to 2.4x and 3.5x, thereby enabling efficient multi-turn interaction under strict resource constraints.
PDF194September 23, 2025