LeanK: Poda de Canais de Cache K Aprendível para Decodificação Eficiente

Resumo

Modelos de linguagem de grande escala (LLMs) permitem tarefas de contexto longo, mas enfrentam desafios de eficiência devido ao crescimento do cache de chave-valor (KV). Propomos o LeanK, um método baseado em aprendizado que poda canais de cache de chave (K) irrelevantes, aproveitando a esparsidade estática de canais. Com um processo de treinamento em duas etapas inovador, o LeanK aprende uma máscara estática por canal que pode satisfazer uma taxa de esparsidade específica e requisitos de alinhamento de hardware. O LeanK reduz a memória da GPU e acelera a decodificação sem sacrificar a precisão. Experimentos demonstram uma redução de até 70% no cache K e de 16%-18% no cache V. Um kernel de decodificação personalizado permite uma aceleração de 1,3x no cálculo de atenção. Também fornecemos insights sobre os canais do modelo e cabeças de atenção durante a inferência de contexto longo, analisando a distribuição de importância aprendida. Nosso código está disponível em https://aka.ms/LeanK.

English

Large language models (LLMs) enable long-context tasks but face efficiency challenges due to the growing key-value (KV) cache. We propose LeanK, a learning-based method that prunes unimportant key (K) cache channels by leveraging static channel sparsity. With a novel two-stage training process, LeanK learns channel-wise static mask that could satisfy specific sparsity ratio and hardware alignment requirement. LeanK reduces GPU memory and accelerates decoding without sacrificing accuracy. Experiments demonstrate up to 70% K cache and 16%-18% V cache memory reduction. Custom decoding kernel enables 1.3x speedup for attention computation. We also provide insights into model channels and attention heads during long-context inference by analyzing the learned importance distribution. Our code is available at https://aka.ms/LeanK.

LeanK: Poda de Canais de Cache K Aprendível para Decodificação Eficiente

LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

Resumo

Support