d^2Cache: Accelerazione dei Modelli Linguistici Basati su Diffusione tramite Memorizzazione Adattiva Duale

Abstract

I modelli linguistici di grandi dimensioni basati su diffusione (dLLM), nonostante le loro prestazioni promettenti, soffrono ancora di un'efficienza inferiore durante l'inferenza. Ciò è dovuto al fatto che i dLLM si basano su un'attenzione bidirezionale e non possono trarre vantaggio direttamente dalla cache chiave-valore (KV) standard come fanno i modelli autoregressivi (ARM). Per affrontare questo problema, introduciamo Dual Adaptive Cache (d^2Cache), un framework di cache KV approssimata senza necessità di addestramento, progettato per accelerare l'inferenza dei dLLM. d^2Cache presenta una strategia di selezione fine a due stadi per identificare i token e aggiornare in modo adattivo i loro stati KV a ogni passo di decodifica, memorizzando contemporaneamente gli stati KV dei token rimanenti per il riutilizzo. Inoltre, d^2Cache offre naturalmente un'alternativa più affidabile per la decodifica, che può abilitare una generazione quasi da sinistra a destra e mitigare la sovraconfidenza prematura nei token alla fine della sequenza. I risultati sperimentali estesi su due dLLM rappresentativi (\ie, LLaDA e Dream) dimostrano che d^2Cache non solo raggiunge accelerazioni sostanziali nell'inferenza, ma produce anche miglioramenti consistenti nella qualità della generazione. Il codice è disponibile all'indirizzo https://github.com/Kamichanw/d2Cache.

English

Diffusion-based large language models (dLLMs), despite their promising performance, still suffer from inferior inference efficiency. This is because dLLMs rely on bidirectional attention and cannot directly benefit from the standard key-value (KV) cache as autoregressive models (ARMs) do. To tackle this issue, we introduce Dual aDaptive Cache (d^2Cache), which is a training-free approximate KV cache framework for accelerating dLLM inference. d^2Cache features a two-stage fine-grained selection strategy to identify tokens and adaptively update their KV states at each decoding step, while caching the KV states of the remaining tokens for reuse. Furthermore, d^2Cache naturally offers a more reliable decoding alternative, which can enable quasi left-to-right generation and mitigate premature overconfidence in tokens at the end of the sequence. Extensive experimental results on two representative dLLMs (\ie, LLaDA and Dream) demonstrate that d^2Cache not only achieves substantial inference speedups, but also yields consistent improvements in generation quality. The code is available at https://github.com/Kamichanw/d2Cache.

d^2Cache: Accelerazione dei Modelli Linguistici Basati su Diffusione tramite Memorizzazione Adattiva Duale

d^2Cache: Accelerating Diffusion-Based LLMs via Dual Adaptive Caching

Abstract

Support