ChunkKV: Сжатие кэша ключ-значение с сохранением семантики для эффективного вывода длинного контекста LLM.

Аннотация

Для снижения затрат памяти при выводе длинного контекста с использованием больших языковых моделей (LLM) многие недавние работы сосредотачиваются на сжатии ключевого-значения (KV) кэша различных токенов. Однако мы выявляем, что предыдущие методы сжатия KV кэша измеряют важность токена индивидуально, пренебрегая зависимостью между различными токенами в характеристиках реального языка. В свете этого мы представляем ChunkKV, группируя токены в кусок как базовую сжимающую единицу, и сохраняя наиболее информативные семантические куски, отбрасывая менее важные. Более того, замечая, что ChunkKV проявляет более высокую схожесть в сохраненных индексах по различным слоям, мы предлагаем многоразовое использование индексов по слоям для дальнейшего снижения вычислительной нагрузки. Мы оценили ChunkKV на передовых бенчмарках длинного контекста, включая LongBench и Needle-In-A-HayStack, а также на бенчмарках обучения в контексте GSM8K и JailbreakV. Наши эксперименты с настройкой инструкций и многоэтапным рассуждением (O1 и R1) LLM показывают улучшение производительности до 10\% при агрессивных коэффициентах сжатия по сравнению с существующими методами.

English

To reduce memory costs in long-context inference with Large Language Models (LLMs), many recent works focus on compressing the key-value (KV) cache of different tokens. However, we identify that the previous KV cache compression methods measure token importance individually, neglecting the dependency between different tokens in the real-world language characterics. In light of this, we introduce ChunkKV, grouping the tokens in a chunk as a basic compressing unit, and retaining the most informative semantic chunks while discarding the less important ones. Furthermore, observing that ChunkKV exhibits higher similarity in the preserved indices across different layers, we propose layer-wise index reuse to further reduce computational overhead. We evaluated ChunkKV on cutting-edge long-context benchmarks including LongBench and Needle-In-A-HayStack, as well as the GSM8K and JailbreakV in-context learning benchmark. Our experiments with instruction tuning and multi-step reasoning (O1 and R1) LLMs, achieve up to 10\% performance improvement under aggressive compression ratios compared to existing methods.

ChunkKV: Сжатие кэша ключ-значение с сохранением семантики для эффективного вывода длинного контекста LLM.

ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference

Аннотация

Support