ChatPaper.aiChatPaper

¿Pueden los LLMs mantener habilidades fundamentales bajo compresión de caché KV?

Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

February 4, 2025
Autores: Xiang Liu, Zhenheng Tang, Hong Chen, Peijie Dong, Zeyu Li, Xiuze Zhou, Bo Li, Xuming Hu, Xiaowen Chu
cs.AI

Resumen

Este artículo investiga un desafío poco explorado en modelos de lenguaje grandes (LLMs): el impacto de los métodos de compresión de caché KV en las capacidades fundamentales de los LLMs. Mientras que los métodos existentes logran impresionantes ratios de compresión en bancos de pruebas de contexto largo, sus efectos en las capacidades fundamentales del modelo siguen siendo poco estudiados. Presentamos un estudio empírico exhaustivo que evalúa prominentes métodos de compresión de caché KV en diversas tareas, abarcando conocimiento del mundo, razonamiento de sentido común, razonamiento aritmético, generación de código, seguridad y comprensión y generación de contexto largo. Nuestro análisis revela que los métodos de compresión de caché KV muestran degradación del rendimiento específica de la tarea. Las tareas de razonamiento aritmético resultan particularmente sensibles a la compresión agresiva, con diferentes métodos mostrando caídas de rendimiento del 17.4% al 43.3%. Notablemente, el modelo DeepSeek R1 Distill muestra una tolerancia a la compresión más robusta en comparación con los modelos ajustados a instrucciones, mostrando solo una degradación del rendimiento del 9.67% al 25.53%. Basándonos en nuestro análisis de patrones de atención y rendimiento de compresión entre tareas, proponemos ShotKV, un enfoque de compresión novedoso que maneja de manera distintiva las fases de prellenado y decodificación mientras mantiene coherencia semántica a nivel de disparo. Los resultados empíricos muestran que ShotKV logra mejoras de rendimiento del 9% al 18% en tareas de generación de contexto largo bajo ratios de compresión agresivos.
English
This paper investigates an under-explored challenge in large language models (LLMs): the impact of KV cache compression methods on LLMs' fundamental capabilities. While existing methods achieve impressive compression ratios on long-context benchmarks, their effects on core model capabilities remain understudied. We present a comprehensive empirical study evaluating prominent KV cache compression methods across diverse tasks, spanning world knowledge, commonsense reasoning, arithmetic reasoning, code generation, safety, and long-context understanding and generation.Our analysis reveals that KV cache compression methods exhibit task-specific performance degradation. Arithmetic reasoning tasks prove particularly sensitive to aggressive compression, with different methods showing performance drops of 17.4%-43.3%. Notably, the DeepSeek R1 Distill model exhibits more robust compression tolerance compared to instruction-tuned models, showing only 9.67%-25.53% performance degradation. Based on our analysis of attention patterns and cross-task compression performance, we propose ShotKV, a novel compression approach that distinctly handles prefill and decoding phases while maintaining shot-level semantic coherence. Empirical results show that ShotKV achieves 9%-18% performance improvements on long-context generation tasks under aggressive compression ratios.

Summary

AI-Generated Summary

PDF152February 5, 2025