ChunkKV: Сжатие кэша ключ-значение с сохранением семантики для эффективного вывода длинного контекста LLM.
ChunkKV: Semantic-Preserving KV Cache Compression for Efficient Long-Context LLM Inference
February 1, 2025
Авторы: Xiang Liu, Zhenheng Tang, Peijie Dong, Zeyu Li, Bo Li, Xuming Hu, Xiaowen Chu
cs.AI
Аннотация
Для снижения затрат памяти при выводе длинного контекста с использованием больших языковых моделей (LLM) многие недавние работы сосредотачиваются на сжатии ключевого-значения (KV) кэша различных токенов. Однако мы выявляем, что предыдущие методы сжатия KV кэша измеряют важность токена индивидуально, пренебрегая зависимостью между различными токенами в характеристиках реального языка. В свете этого мы представляем ChunkKV, группируя токены в кусок как базовую сжимающую единицу, и сохраняя наиболее информативные семантические куски, отбрасывая менее важные. Более того, замечая, что ChunkKV проявляет более высокую схожесть в сохраненных индексах по различным слоям, мы предлагаем многоразовое использование индексов по слоям для дальнейшего снижения вычислительной нагрузки. Мы оценили ChunkKV на передовых бенчмарках длинного контекста, включая LongBench и Needle-In-A-HayStack, а также на бенчмарках обучения в контексте GSM8K и JailbreakV. Наши эксперименты с настройкой инструкций и многоэтапным рассуждением (O1 и R1) LLM показывают улучшение производительности до 10\% при агрессивных коэффициентах сжатия по сравнению с существующими методами.
English
To reduce memory costs in long-context inference with Large Language Models
(LLMs), many recent works focus on compressing the key-value (KV) cache of
different tokens. However, we identify that the previous KV cache compression
methods measure token importance individually, neglecting the dependency
between different tokens in the real-world language characterics. In light of
this, we introduce ChunkKV, grouping the tokens in a chunk as a basic
compressing unit, and retaining the most informative semantic chunks while
discarding the less important ones. Furthermore, observing that ChunkKV
exhibits higher similarity in the preserved indices across different layers, we
propose layer-wise index reuse to further reduce computational overhead. We
evaluated ChunkKV on cutting-edge long-context benchmarks including LongBench
and Needle-In-A-HayStack, as well as the GSM8K and JailbreakV in-context
learning benchmark. Our experiments with instruction tuning and multi-step
reasoning (O1 and R1) LLMs, achieve up to 10\% performance improvement under
aggressive compression ratios compared to existing methods.Summary
AI-Generated Summary