dKV-Cache: O Cache para Modelos de Linguagem de Difusão

Resumo

Os Modelos de Linguagem de Difusão (DLMs, na sigla em inglês) têm sido vistos como um concorrente promissor para os modelos de linguagem autoregressivos. No entanto, os modelos de linguagem de difusão têm sido limitados há muito tempo pela inferência lenta. Um desafio central é que sua arquitetura não autoregressiva e atenção bidirecional impedem o uso do cache de chave-valor (KV-cache) que acelera a decodificação. Nós abordamos esse gargalo propondo um mecanismo semelhante ao KV-cache, chamado de KV-Cache Atrasado (delayed KV-Cache), para o processo de remoção de ruído dos DLMs. Nossa abordagem é motivada pela observação de que diferentes tokens têm dinâmicas de representação distintas ao longo do processo de difusão. Consequentemente, propomos uma estratégia de cache atrasado e condicionado para os estados de chave e valor. Projetamos duas variantes complementares para armazenar em cache as chaves e valores passo a passo: (1) dKV-Cache-Decode, que oferece aceleração quase sem perdas e até melhora o desempenho em sequências longas, sugerindo que os DLMs existentes podem subutilizar informações contextuais durante a inferência. (2) dKV-Cache-Greedy, que possui um cache agressivo com tempo de vida reduzido, alcançando maiores ganhos de velocidade com complexidade de tempo quadrática, ao custo de alguma degradação de desempenho. O dKV-Cache, em última análise, alcança uma aceleração de 2 a 10 vezes na inferência, reduzindo significativamente a lacuna entre os modelos autoregressivos (ARs) e os DLMs. Avaliamos nosso dKV-Cache em vários benchmarks, proporcionando aceleração em tarefas de compreensão geral de linguagem, matemática e geração de código. Os experimentos demonstram que o cache também pode ser utilizado em DLMs, mesmo de forma livre de treinamento a partir dos DLMs atuais.

English

Diffusion Language Models (DLMs) have been seen as a promising competitor for autoregressive language models. However, diffusion language models have long been constrained by slow inference. A core challenge is that their non-autoregressive architecture and bidirectional attention preclude the key-value cache that accelerates decoding. We address this bottleneck by proposing a KV-cache-like mechanism, delayed KV-Cache, for the denoising process of DLMs. Our approach is motivated by the observation that different tokens have distinct representation dynamics throughout the diffusion process. Accordingly, we propose a delayed and conditioned caching strategy for key and value states. We design two complementary variants to cache key and value step-by-step: (1) dKV-Cache-Decode, which provides almost lossless acceleration, and even improves performance on long sequences, suggesting that existing DLMs may under-utilise contextual information during inference. (2) dKV-Cache-Greedy, which has aggressive caching with reduced lifespan, achieving higher speed-ups with quadratic time complexity at the cost of some performance degradation. dKV-Cache, in final, achieves from 2-10x speedup in inference, largely narrowing the gap between ARs and DLMs. We evaluate our dKV-Cache on several benchmarks, delivering acceleration across general language understanding, mathematical, and code-generation benchmarks. Experiments demonstrate that cache can also be used in DLMs, even in a training-free manner from current DLMs.

dKV-Cache: O Cache para Modelos de Linguagem de Difusão

dKV-Cache: The Cache for Diffusion Language Models

Resumo

Support