Paquete KV: Almacenamiento en caché KV Independiente del Contexto sin Recomputación para Modelos de Lenguaje Grandes

Resumen

Los Modelos de Lenguaje Grandes (LLMs) dependen en gran medida del almacenamiento en caché Clave-Valor (KV) para minimizar la latencia de inferencia. Sin embargo, las cachés KV estándar son dependientes del contexto: reutilizar un documento en caché en un contexto nuevo requiere recalcular los estados KV para tener en cuenta los cambios en la distribución de la atención. Soluciones existentes como CacheBlend, EPIC y SAM-KV mitigan este problema recomputando selectivamente un subconjunto de tokens; no obstante, aún incurren en una sobrecarga computacional (FLOPs) no despreciable y un aumento de la latencia del Tiempo hasta el Primer Token (TTFT). En este artículo, proponemos KV Packet, un marco de reutilización de caché sin recomputación que trata los documentos en caché como "paquetes" inmutables encapsulados en adaptadores de tokens blandos entrenables de bajo costo, los cuales se entrenan mediante destilación auto-supervisada para salvar discontinuidades contextuales. Experimentos en Llama-3.1 y Qwen2.5 demuestran que el método KV Packet propuesto logra FLOPs cercanos a cero y un TTFT más bajo que los métodos base basados en recomputación, manteniendo simultáneamente puntuaciones F1 comparables a las del método base de recomputación completa.

English

Large Language Models (LLMs) rely heavily on Key-Value (KV) caching to minimize inference latency. However, standard KV caches are context-dependent: reusing a cached document in a new context requires recomputing KV states to account for shifts in attention distribution. Existing solutions such as CacheBlend, EPIC, and SAM-KV mitigate this issue by selectively recomputing a subset of tokens; however, they still incur non-negligible computational overhead (FLOPs) and increased Time-to-First-Token (TTFT) latency. In this paper, we propose KV Packet, a recomputation-free cache reuse framework that treats cached documents as immutable ``packets'' wrapped in light-weight trainable soft-token adapters, which are trained via self-supervised distillation to bridge context discontinuities. Experiments on Llama-3.1 and Qwen2.5 demonstrate that the proposed KV Packet method achieves near-zero FLOPs and lower TTFT than recomputation-based baselines, while retaining F1 scores comparable to those of the full recomputation baseline.

Paquete KV: Almacenamiento en caché KV Independiente del Contexto sin Recomputación para Modelos de Lenguaje Grandes

KV Packet: Recomputation-Free Context-Independent KV Caching for LLMs

Resumen

Support