EpiCache: Gerenciamento de Cache KV Episódico para Respostas de Perguntas em Conversas Longas
EpiCache: Episodic KV Cache Management for Long Conversational Question Answering
September 22, 2025
Autores: Minsoo Kim, Arnav Kundu, Han-Byul Kim, Richa Dixit, Minsik Cho
cs.AI
Resumo
Avanços recentes em modelos de linguagem de grande escala (LLMs) têm estendido os comprimentos de contexto, permitindo que assistentes mantenham históricos longos para respostas coerentes e personalizadas. Essa capacidade, no entanto, depende do cache de Chave-Valor (KV), cuja memória cresce linearmente com o comprimento do diálogo e rapidamente domina sob restrições rigorosas de recursos. Uma linha de pesquisa ativa para reduzir essa sobrecarga é a compressão do cache KV, que busca limitar o tamanho do cache enquanto preserva a precisão. No entanto, os métodos existentes enfrentam duas grandes limitações: (i) a remoção de entradas após o preenchimento completo do contexto causa um pico de memória ilimitado, e (ii) a remoção dependente da consulta reduz o cache a uma única consulta, levando a uma precisão degradada em conversas de múltiplos turnos. Apresentamos o EpiCache, uma estrutura de gerenciamento de cache KV sem necessidade de treinamento para respostas a perguntas em conversas longas (LongConvQA) sob orçamentos de memória fixos. O EpiCache limita o crescimento do cache através do preenchimento em blocos e preserva o contexto relevante ao tópico por meio da compressão episódica de KV, que agrupa o histórico da conversa em episódios coerentes e aplica a remoção de cache KV específica para cada episódio. Além disso, projetamos uma estratégia adaptativa de alocação de orçamento por camadas que mede a sensibilidade de cada camada à remoção e distribui o orçamento de memória entre as camadas de acordo. Em três benchmarks de LongConvQA, o EpiCache melhora a precisão em até 40% em relação às linhas de base recentes, mantém uma precisão quase total do KV sob compressão de 4-6x, e reduz a latência e a memória em até 2,4x e 3,5x, permitindo assim uma interação eficiente de múltiplos turnos sob restrições rigorosas de recursos.
English
Recent advances in large language models (LLMs) have extended context
lengths, enabling assistants to sustain long histories for coherent,
personalized responses. This ability, however, hinges on Key-Value (KV)
caching, whose memory grows linearly with dialogue length and quickly dominates
under strict resource constraints. An active line of research for reducing this
overhead is KV cache compression, which seeks to limit cache size while
preserving accuracy. Yet existing methods face two major limitations: (i)
evicting entries after full-context prefill causes unbounded peak memory, and
(ii) query-dependent eviction narrows the cache to a single query, leading to
degraded accuracy in multi-turn conversations. We introduce EpiCache, a
training-free KV cache management framework for long conversational question
answering (LongConvQA) under fixed memory budgets. EpiCache bounds cache growth
through block-wise prefill and preserves topic-relevant context via episodic KV
compression, which clusters conversation history into coherent episodes and
applies episode-specific KV cache eviction. We further design an adaptive
layer-wise budget allocation strategy that measures each layer's sensitivity to
eviction and distributes the memory budget across layers accordingly. Across
three LongConvQA benchmarks, EpiCache improves accuracy by up to 40% over
recent baselines, sustains near-full KV accuracy under 4-6x compression, and
reduces latency and memory by up to 2.4x and 3.5x, thereby enabling efficient
multi-turn interaction under strict resource constraints.