Fast-dLLM : Accélération sans entraînement des LLM de diffusion par activation du cache KV et décodage parallèle
Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding
May 28, 2025
Auteurs: Chengyue Wu, Hao Zhang, Shuchen Xue, Zhijian Liu, Shizhe Diao, Ligeng Zhu, Ping Luo, Song Han, Enze Xie
cs.AI
Résumé
Les modèles de langage de grande taille basés sur la diffusion (Diffusion LLMs) ont montré un potentiel prometteur pour la génération de texte non autoregressive avec des capacités de décodage parallèle. Cependant, la vitesse d'inférence pratique des Diffusion LLMs open-source est souvent inférieure à celle des modèles autoregressifs en raison de l'absence de cache Clé-Valeur (KV) et de la dégradation de la qualité lors du décodage simultané de plusieurs tokens. Pour combler cet écart, nous introduisons un mécanisme novateur de cache KV approximatif par blocs, spécialement conçu pour les modèles de diffusion bidirectionnels, permettant la réutilisation du cache avec une baisse de performance négligeable. De plus, nous identifions la cause principale de la dégradation de la qualité de génération dans le décodage parallèle comme étant la perturbation des dépendances entre tokens sous l'hypothèse d'indépendance conditionnelle. Pour résoudre ce problème, nous proposons une stratégie de décodage parallèle basée sur la confiance, qui décode sélectivement les tokens dépassant un seuil de confiance, atténuant ainsi les violations de dépendances et préservant la qualité de génération. Les résultats expérimentaux sur les modèles LLaDA et Dream, à travers plusieurs benchmarks de LLM, démontrent une amélioration du débit allant jusqu'à 27,6 fois avec une perte de précision minimale, réduisant l'écart de performance avec les modèles autoregressifs et ouvrant la voie au déploiement pratique des Diffusion LLMs.
English
Diffusion-based large language models (Diffusion LLMs) have shown promise for
non-autoregressive text generation with parallel decoding capabilities.
However, the practical inference speed of open-sourced Diffusion LLMs often
lags behind autoregressive models due to the lack of Key-Value (KV) Cache and
quality degradation when decoding multiple tokens simultaneously. To bridge
this gap, we introduce a novel block-wise approximate KV Cache mechanism
tailored for bidirectional diffusion models, enabling cache reuse with
negligible performance drop. Additionally, we identify the root cause of
generation quality degradation in parallel decoding as the disruption of token
dependencies under the conditional independence assumption. To address this, we
propose a confidence-aware parallel decoding strategy that selectively decodes
tokens exceeding a confidence threshold, mitigating dependency violations and
maintaining generation quality. Experimental results on LLaDA and Dream models
across multiple LLM benchmarks demonstrate up to 27.6times
throughput improvement with minimal accuracy loss, closing the performance gap
with autoregressive models and paving the way for practical deployment of
Diffusion LLMs.Summary
AI-Generated Summary