LeanK: Обучаемое прореживание каналов K-кэша для эффективного декодирования

Аннотация

Крупные языковые модели (LLMs) позволяют выполнять задачи с длинным контекстом, но сталкиваются с проблемами эффективности из-за растущего кэша ключей и значений (KV). Мы предлагаем LeanK, метод на основе обучения, который обрезает неважные каналы кэша ключей (K), используя статическую разреженность каналов. С помощью нового двухэтапного процесса обучения LeanK изучает статические маски на уровне каналов, которые могут удовлетворять заданному коэффициенту разреженности и требованиям аппаратного выравнивания. LeanK сокращает использование памяти GPU и ускоряет декодирование без потери точности. Эксперименты демонстрируют сокращение памяти кэша K до 70% и памяти кэша V на 16%-18%. Пользовательское ядро декодирования обеспечивает ускорение вычислений внимания в 1,3 раза. Мы также предоставляем анализ распределения важности каналов модели и голов внимания в процессе вывода с длинным контекстом. Наш код доступен по адресу https://aka.ms/LeanK.

English

Large language models (LLMs) enable long-context tasks but face efficiency challenges due to the growing key-value (KV) cache. We propose LeanK, a learning-based method that prunes unimportant key (K) cache channels by leveraging static channel sparsity. With a novel two-stage training process, LeanK learns channel-wise static mask that could satisfy specific sparsity ratio and hardware alignment requirement. LeanK reduces GPU memory and accelerates decoding without sacrificing accuracy. Experiments demonstrate up to 70% K cache and 16%-18% V cache memory reduction. Custom decoding kernel enables 1.3x speedup for attention computation. We also provide insights into model channels and attention heads during long-context inference by analyzing the learned importance distribution. Our code is available at https://aka.ms/LeanK.

LeanK: Обучаемое прореживание каналов K-кэша для эффективного декодирования

LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

Аннотация

Support