Информационно-зависимое сжатие KV-кеша для длинных рассуждений

Аннотация

Способность к рассуждению быстро прогрессировала в больших языковых моделях (БЯМ), что привело к увеличению размера кэша ключ-значение (KV) как на этапе предзаполнения, так и на этапе декодирования. Существующие методы сжатия KV-кэша в основном полагаются на веса внимания для оценки важности токенов. Хотя внимание эффективно отражает контекстуальную релевантность, оно упускает из виду дополнительные информационно-теоретические сигналы, связанные с прогностической неопределенностью и информативностью токенов. В данной статье мы пересматриваем важность токенов с опережающей перспективы и вводим метрику «прямое влияние» (Forward Influence), которая измеряет, как сжатые токены влияют на будущие контексты. Наш анализ показывает, что токены, отобранные по оценкам внимания, в основном влияют на близлежащие контексты, тогда как токены, связанные с высокой прогностической неопределенностью, оказывают значительно более сильное влияние на удаленные будущие контексты. Основываясь на данном наблюдении, мы предлагаем InfoKV — основанную на энтропии структуру сжатия KV-кэша, которая включает информационно-теоретические сигналы. Она объединяет прогностическую неопределенность на уровне токенов с послойной эволюцией представлений и интегрирует полученные энтропийные оценки с оценками внимания в процессе рассуждения. Эксперименты на эталонных тестах для рассуждений в длинном контексте с моделями Llama-3.1, Llama-3.2 и DeepSeek-R1 показывают, что InfoKV стабильно превосходит существующие методы сжатия KV-кэша на основе внимания как в сценариях длительного предзаполнения, так и декодирования.

English

Reasoning capability has advanced rapidly in large language models (LLMs), leading to an increasing size of key-value (KV) cache in both prefilling and decoding stages. Existing KV cache compression methods mainly rely on attention weights to estimate token importance. While attention effectively captures contextual relevance, it overlooks complementary information-theoretic signals related to predictive uncertainty and token informativeness. In this paper, we revisit token importance from a forward-looking perspective and introduce Forward Influence, a metric that measures how compressed tokens affect future contexts. Our analysis reveals that tokens selected by attention scores mainly influence nearby contexts, whereas tokens associated with high predictive uncertainty exhibit substantially stronger influence on distant future contexts. Based on the observation, we propose InfoKV, an entropy-aware KV cache compression framework that incorporates information-theoretic signals. It combines token-level predictive uncertainty with layer-wise representation evolution and integrates the resulting entropy scores with attention scores during reasoning. Experiments on long-context reasoning benchmarks with Llama-3.1, Llama-3.2, and DeepSeek-R1 demonstrate that InfoKV consistently outperforms existing attention-based KV compression methods in both long prefilling and decoding scenarios.