ChatPaper.aiChatPaper

dKV-Cache: Кэш для диффузионных языковых моделей

dKV-Cache: The Cache for Diffusion Language Models

May 21, 2025
Авторы: Xinyin Ma, Runpeng Yu, Gongfan Fang, Xinchao Wang
cs.AI

Аннотация

Диффузионные языковые модели (DLMs) рассматриваются как перспективная альтернатива авторегрессивным языковым моделям. Однако долгое время их применение ограничивалось медленным выводом. Основная проблема заключается в том, что их неавторегрессивная архитектура и двунаправленное внимание исключают использование кэша ключей и значений (KV-cache), который ускоряет декодирование. Мы устраняем это узкое место, предлагая механизм, аналогичный KV-cache, — отложенный KV-Cache (delayed KV-Cache) для процесса удаления шума в DLMs. Наш подход основан на наблюдении, что разные токены имеют различные динамики представления в ходе диффузионного процесса. Соответственно, мы предлагаем стратегию отложенного и условного кэширования состояний ключей и значений. Мы разработали два взаимодополняющих варианта для пошагового кэширования ключей и значений: (1) dKV-Cache-Decode, который обеспечивает практически без потерь ускорение и даже улучшает производительность на длинных последовательностях, что указывает на недостаточное использование контекстной информации существующими DLMs в процессе вывода. (2) dKV-Cache-Greedy, который использует агрессивное кэширование с сокращённым сроком жизни, достигая большего ускорения с квадратичной временной сложностью ценой некоторого снижения производительности. В итоге dKV-Cache обеспечивает ускорение вывода в 2–10 раз, значительно сокращая разрыв между авторегрессивными и диффузионными моделями. Мы оценили наш dKV-Cache на нескольких бенчмарках, демонстрируя ускорение в задачах общего понимания языка, математических задач и генерации кода. Эксперименты показывают, что кэш может быть успешно применён в DLMs даже без дополнительного обучения на основе текущих моделей.
English
Diffusion Language Models (DLMs) have been seen as a promising competitor for autoregressive language models. However, diffusion language models have long been constrained by slow inference. A core challenge is that their non-autoregressive architecture and bidirectional attention preclude the key-value cache that accelerates decoding. We address this bottleneck by proposing a KV-cache-like mechanism, delayed KV-Cache, for the denoising process of DLMs. Our approach is motivated by the observation that different tokens have distinct representation dynamics throughout the diffusion process. Accordingly, we propose a delayed and conditioned caching strategy for key and value states. We design two complementary variants to cache key and value step-by-step: (1) dKV-Cache-Decode, which provides almost lossless acceleration, and even improves performance on long sequences, suggesting that existing DLMs may under-utilise contextual information during inference. (2) dKV-Cache-Greedy, which has aggressive caching with reduced lifespan, achieving higher speed-ups with quadratic time complexity at the cost of some performance degradation. dKV-Cache, in final, achieves from 2-10x speedup in inference, largely narrowing the gap between ARs and DLMs. We evaluate our dKV-Cache on several benchmarks, delivering acceleration across general language understanding, mathematical, and code-generation benchmarks. Experiments demonstrate that cache can also be used in DLMs, even in a training-free manner from current DLMs.

Summary

AI-Generated Summary

PDF112May 22, 2025