LeanK: Обучаемое прореживание каналов K-кэша для эффективного декодирования
LeanK: Learnable K Cache Channel Pruning for Efficient Decoding
August 4, 2025
Авторы: Yike Zhang, Zhiyuan He, Huiqiang Jiang, Chengruidong Zhang, Yuqing Yang, Jianyong Wang, Lili Qiu
cs.AI
Аннотация
Крупные языковые модели (LLMs) позволяют выполнять задачи с длинным контекстом, но сталкиваются с проблемами эффективности из-за растущего кэша ключей и значений (KV). Мы предлагаем LeanK, метод на основе обучения, который обрезает неважные каналы кэша ключей (K), используя статическую разреженность каналов. С помощью нового двухэтапного процесса обучения LeanK изучает статические маски на уровне каналов, которые могут удовлетворять заданному коэффициенту разреженности и требованиям аппаратного выравнивания. LeanK сокращает использование памяти GPU и ускоряет декодирование без потери точности. Эксперименты демонстрируют сокращение памяти кэша K до 70% и памяти кэша V на 16%-18%. Пользовательское ядро декодирования обеспечивает ускорение вычислений внимания в 1,3 раза. Мы также предоставляем анализ распределения важности каналов модели и голов внимания в процессе вывода с длинным контекстом. Наш код доступен по адресу https://aka.ms/LeanK.
English
Large language models (LLMs) enable long-context tasks but face efficiency
challenges due to the growing key-value (KV) cache. We propose LeanK, a
learning-based method that prunes unimportant key (K) cache channels by
leveraging static channel sparsity. With a novel two-stage training process,
LeanK learns channel-wise static mask that could satisfy specific sparsity
ratio and hardware alignment requirement. LeanK reduces GPU memory and
accelerates decoding without sacrificing accuracy. Experiments demonstrate up
to 70% K cache and 16%-18% V cache memory reduction. Custom decoding kernel
enables 1.3x speedup for attention computation. We also provide insights into
model channels and attention heads during long-context inference by analyzing
the learned importance distribution. Our code is available at
https://aka.ms/LeanK.