¿Qué cabezas importan para el razonamiento? Compresión de la caché KV guiada por RL

Resumen

Los modelos de lenguaje de gran escala que realizan razonamiento exhiben comportamientos de razonamiento complejos a través de la generación extendida de cadenas de pensamiento, lo que crea una sobrecarga sin precedentes en la caché de clave-valor (KV) durante la fase de decodificación. Los métodos existentes de compresión de la caché KV tienen un rendimiento inferior en modelos de razonamiento: los métodos que descartan tokens rompen la integridad del razonamiento al eliminar información crítica, mientras que los métodos que reasignan cabezas comprimen erróneamente las cabezas críticas para el razonamiento, ya que están diseñados para tareas de recuperación, lo que resulta en una degradación significativa del rendimiento a medida que aumentan las tasas de compresión. Nuestra hipótesis es que las cabezas KV exhiben heterogeneidad funcional en los modelos de razonamiento: algunas cabezas son críticas para la consistencia de la cadena de pensamiento, mientras que otras son comprimibles. Para validar y explotar esta idea, proponemos RLKV, un marco novedoso de identificación de cabezas críticas para el razonamiento, que utiliza aprendizaje por refuerzo para optimizar directamente la relación entre el uso de la caché de cada cabeza y la calidad del razonamiento. Como RLKV genera recompensas a partir de muestras generadas durante el entrenamiento, identifica naturalmente las cabezas relevantes para los comportamientos de razonamiento. Luego, asignamos la caché KV completa a estas cabezas mientras aplicamos una caché KV comprimida constante a las demás para una inferencia eficiente. Nuestros experimentos revelan que solo una pequeña fracción de las cabezas de atención es esencial para el razonamiento, lo que permite que nuestro enfoque de compresión KV supere a los métodos base mientras logra una reducción del 20-50% en la caché con un rendimiento casi sin pérdidas en comparación con los resultados sin compresión.

English

Reasoning large language models exhibit complex reasoning behaviors through the extended chain-of-thought generation, creating unprecedented Key-Value (KV) cache overhead during the decoding phase. Existing KV cache compression methods underperform on reasoning models: token-dropping methods break reasoning integrity by discarding critical information, while head-reallocating methods mistakenly compress reasoning-critical heads since they are designed for retrieval tasks, resulting in significant performance degradation as compression rates increase. We hypothesize that KV heads exhibit functional heterogeneity in reasoning models-some heads are critical for chain-of-thought consistency while others are compressible. To validate and exploit this insight, we propose RLKV, a novel reasoning-critical head identification framework, which uses reinforcement learning to directly optimize the relationship between each head's cache usage and reasoning quality. As RLKV produces rewards from actual generated samples during training, it naturally identifies heads relevant to reasoning behaviors. We then allocate full KV cache to these heads while applying compressed constant KV cache to others for efficient inference. Our experiments reveal that only a small fraction of attention heads is essential for reasoning, enabling our KV compression approach to outperform baseline methods while achieving 20-50% cache reduction with near lossless performance compared to uncompressed results.

¿Qué cabezas importan para el razonamiento? Compresión de la caché KV guiada por RL

Which Heads Matter for Reasoning? RL-Guided KV Cache Compression

Resumen

Support