LeanK: Poda de Canales de Caché K Aprendible para una Decodificación Eficiente

Resumen

Los modelos de lenguaje de gran escala (LLMs) permiten tareas de contexto extenso, pero enfrentan desafíos de eficiencia debido al crecimiento de la caché clave-valor (KV). Proponemos LeanK, un método basado en aprendizaje que poda los canales de la caché clave (K) no importantes aprovechando la esparsidad estática de canales. Con un novedoso proceso de entrenamiento en dos etapas, LeanK aprende una máscara estática a nivel de canal que puede satisfacer un ratio de esparsidad específico y los requisitos de alineación de hardware. LeanK reduce la memoria de GPU y acelera la decodificación sin sacrificar precisión. Los experimentos demuestran una reducción de hasta el 70% en la caché K y del 16%-18% en la memoria de la caché V. Un núcleo de decodificación personalizado permite una aceleración de 1.3x en el cálculo de atención. También proporcionamos insights sobre los canales del modelo y las cabezas de atención durante la inferencia de contexto extenso mediante el análisis de la distribución de importancia aprendida. Nuestro código está disponible en https://aka.ms/LeanK.

English

Large language models (LLMs) enable long-context tasks but face efficiency challenges due to the growing key-value (KV) cache. We propose LeanK, a learning-based method that prunes unimportant key (K) cache channels by leveraging static channel sparsity. With a novel two-stage training process, LeanK learns channel-wise static mask that could satisfy specific sparsity ratio and hardware alignment requirement. LeanK reduces GPU memory and accelerates decoding without sacrificing accuracy. Experiments demonstrate up to 70% K cache and 16%-18% V cache memory reduction. Custom decoding kernel enables 1.3x speedup for attention computation. We also provide insights into model channels and attention heads during long-context inference by analyzing the learned importance distribution. Our code is available at https://aka.ms/LeanK.

LeanK: Poda de Canales de Caché K Aprendible para una Decodificación Eficiente

LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

Resumen

Support