KV Packet : Mise en cache KV sans recomputation et indépendante du contexte pour les LLM

Résumé

Les grands modèles de langage (LLM) reposent largement sur la mise en cache clé-valeur (KV) pour minimiser la latence d'inférence. Cependant, les caches KV standard dépendent du contexte : la réutilisation d'un document mis en cache dans un nouveau contexte nécessite le recalcul des états KV pour tenir compte des changements dans la distribution de l'attention. Les solutions existantes telles que CacheBlend, EPIC et SAM-KV atténuent ce problème en recalculant sélectivement un sous-ensemble de tokens ; elles entraînent néanmoins une surcharge computationnelle non négligeable (en FLOPs) et une augmentation de la latence du temps jusqu'au premier token (TTFT). Dans cet article, nous proposons KV Packet, un cadre de réutilisation de cache sans recalcul qui traite les documents mis en cache comme des « paquets » immuables encapsulés dans des adapteurs légers et entraînables de soft-tokens, formés par distillation auto-supervisée pour combler les discontinuités contextuelles. Les expériences sur Llama-3.1 et Qwen2.5 démontrent que la méthode KV Packet proposée atteint des FLOPs quasi nuls et un TTFT inférieur à ceux des méthodes de référence basées sur le recalcul, tout en conservant des scores F1 comparables à ceux de la référence de recalcul complet.

English

Large Language Models (LLMs) rely heavily on Key-Value (KV) caching to minimize inference latency. However, standard KV caches are context-dependent: reusing a cached document in a new context requires recomputing KV states to account for shifts in attention distribution. Existing solutions such as CacheBlend, EPIC, and SAM-KV mitigate this issue by selectively recomputing a subset of tokens; however, they still incur non-negligible computational overhead (FLOPs) and increased Time-to-First-Token (TTFT) latency. In this paper, we propose KV Packet, a recomputation-free cache reuse framework that treats cached documents as immutable ``packets'' wrapped in light-weight trainable soft-token adapters, which are trained via self-supervised distillation to bridge context discontinuities. Experiments on Llama-3.1 and Qwen2.5 demonstrate that the proposed KV Packet method achieves near-zero FLOPs and lower TTFT than recomputation-based baselines, while retaining F1 scores comparable to those of the full recomputation baseline.

KV Packet : Mise en cache KV sans recomputation et indépendante du contexte pour les LLM

KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs

Résumé

Support