EpiCache: Gestión de Caché KV Episódica para Respuestas a Preguntas Conversacionales Largas
EpiCache: Episodic KV Cache Management for Long Conversational Question Answering
September 22, 2025
Autores: Minsoo Kim, Arnav Kundu, Han-Byul Kim, Richa Dixit, Minsik Cho
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han ampliado las longitudes de contexto, permitiendo que los asistentes mantengan historiales extensos para generar respuestas coherentes y personalizadas. Sin embargo, esta capacidad depende del almacenamiento en caché de clave-valor (KV), cuya memoria crece linealmente con la longitud del diálogo y rápidamente domina bajo restricciones estrictas de recursos. Una línea de investigación activa para reducir esta sobrecarga es la compresión de la caché KV, que busca limitar el tamaño de la caché mientras preserva la precisión. No obstante, los métodos existentes enfrentan dos limitaciones principales: (i) la eliminación de entradas después del prellenado de contexto completo causa un pico de memoria ilimitado, y (ii) la eliminación dependiente de la consulta reduce la caché a una sola consulta, lo que lleva a una precisión degradada en conversaciones de múltiples turnos. Presentamos EpiCache, un marco de gestión de caché KV sin entrenamiento para preguntas y respuestas conversacionales largas (LongConvQA) bajo presupuestos de memoria fijos. EpiCache limita el crecimiento de la caché mediante prellenado por bloques y preserva el contexto relevante del tema mediante compresión episódica de KV, que agrupa el historial de la conversación en episodios coherentes y aplica la eliminación de caché KV específica para cada episodio. Además, diseñamos una estrategia de asignación de presupuesto adaptativa por capas que mide la sensibilidad de cada capa a la eliminación y distribuye el presupuesto de memoria en consecuencia. En tres puntos de referencia de LongConvQA, EpiCache mejora la precisión hasta en un 40 % sobre las líneas base recientes, mantiene una precisión de KV casi completa bajo compresiones de 4-6x, y reduce la latencia y la memoria hasta en 2.4x y 3.5x, permitiendo así una interacción eficiente de múltiples turnos bajo restricciones estrictas de recursos.
English
Recent advances in large language models (LLMs) have extended context
lengths, enabling assistants to sustain long histories for coherent,
personalized responses. This ability, however, hinges on Key-Value (KV)
caching, whose memory grows linearly with dialogue length and quickly dominates
under strict resource constraints. An active line of research for reducing this
overhead is KV cache compression, which seeks to limit cache size while
preserving accuracy. Yet existing methods face two major limitations: (i)
evicting entries after full-context prefill causes unbounded peak memory, and
(ii) query-dependent eviction narrows the cache to a single query, leading to
degraded accuracy in multi-turn conversations. We introduce EpiCache, a
training-free KV cache management framework for long conversational question
answering (LongConvQA) under fixed memory budgets. EpiCache bounds cache growth
through block-wise prefill and preserves topic-relevant context via episodic KV
compression, which clusters conversation history into coherent episodes and
applies episode-specific KV cache eviction. We further design an adaptive
layer-wise budget allocation strategy that measures each layer's sensitivity to
eviction and distributes the memory budget across layers accordingly. Across
three LongConvQA benchmarks, EpiCache improves accuracy by up to 40% over
recent baselines, sustains near-full KV accuracy under 4-6x compression, and
reduces latency and memory by up to 2.4x and 3.5x, thereby enabling efficient
multi-turn interaction under strict resource constraints.