EpiCache: Управление эпизодическим кэшем ключ-значение для длительных диалоговых вопросов и ответов
EpiCache: Episodic KV Cache Management for Long Conversational Question Answering
September 22, 2025
Авторы: Minsoo Kim, Arnav Kundu, Han-Byul Kim, Richa Dixit, Minsik Cho
cs.AI
Аннотация
Последние достижения в области больших языковых моделей (LLM) позволили увеличить длину контекста, что дает ассистентам возможность поддерживать длинные истории для создания связных и персонализированных ответов. Однако эта способность зависит от кэширования ключей и значений (Key-Value, KV), объем памяти которого растет линейно с увеличением длины диалога и быстро становится доминирующим при строгих ограничениях ресурсов. Активное направление исследований, направленное на снижение этой нагрузки, — это сжатие KV-кэша, которое стремится ограничить размер кэша, сохраняя при этом точность. Однако существующие методы сталкиваются с двумя основными ограничениями: (i) удаление записей после полного предзаполнения контекста приводит к неограниченному пиковому использованию памяти, и (ii) удаление, зависящее от запроса, сужает кэш до одного запроса, что приводит к снижению точности в многоходовых диалогах. Мы представляем EpiCache, фреймворк для управления KV-кэшем без обучения, предназначенный для длинных диалоговых вопросов и ответов (LongConvQA) при фиксированных ограничениях памяти. EpiCache ограничивает рост кэша за счет блочного предзаполнения и сохраняет контекст, релевантный теме, с помощью эпизодического сжатия KV, которое группирует историю диалога в связные эпизоды и применяет удаление кэша, специфичное для каждого эпизода. Мы также разработали адаптивную стратегию распределения бюджета по слоям, которая оценивает чувствительность каждого слоя к удалению и распределяет бюджет памяти между слоями соответствующим образом. На трех бенчмарках LongConvQA EpiCache повышает точность до 40% по сравнению с последними базовыми методами, сохраняет почти полную точность KV при сжатии в 4-6 раз и снижает задержку и использование памяти до 2,4 и 3,5 раз соответственно, что позволяет эффективно взаимодействовать в многоходовых диалогах при строгих ограничениях ресурсов.
English
Recent advances in large language models (LLMs) have extended context
lengths, enabling assistants to sustain long histories for coherent,
personalized responses. This ability, however, hinges on Key-Value (KV)
caching, whose memory grows linearly with dialogue length and quickly dominates
under strict resource constraints. An active line of research for reducing this
overhead is KV cache compression, which seeks to limit cache size while
preserving accuracy. Yet existing methods face two major limitations: (i)
evicting entries after full-context prefill causes unbounded peak memory, and
(ii) query-dependent eviction narrows the cache to a single query, leading to
degraded accuracy in multi-turn conversations. We introduce EpiCache, a
training-free KV cache management framework for long conversational question
answering (LongConvQA) under fixed memory budgets. EpiCache bounds cache growth
through block-wise prefill and preserves topic-relevant context via episodic KV
compression, which clusters conversation history into coherent episodes and
applies episode-specific KV cache eviction. We further design an adaptive
layer-wise budget allocation strategy that measures each layer's sensitivity to
eviction and distributes the memory budget across layers accordingly. Across
three LongConvQA benchmarks, EpiCache improves accuracy by up to 40% over
recent baselines, sustains near-full KV accuracy under 4-6x compression, and
reduces latency and memory by up to 2.4x and 3.5x, thereby enabling efficient
multi-turn interaction under strict resource constraints.