Fast-dLLM v2 : Modèle de Langage à Bloc-Diffusion Efficace
Fast-dLLM v2: Efficient Block-Diffusion LLM
September 30, 2025
papers.authors: Chengyue Wu, Hao Zhang, Shuchen Xue, Shizhe Diao, Yonggan Fu, Zhijian Liu, Pavlo Molchanov, Ping Luo, Song Han, Enze Xie
cs.AI
papers.abstract
Les modèles de langage autoregressifs (AR) de grande taille (LLMs) ont atteint des performances remarquables sur une large gamme de tâches de traitement du langage naturel, bien que leur décodage séquentiel inhérent limite l'efficacité de l'inférence. Dans ce travail, nous proposons Fast-dLLM v2, un modèle de langage à diffusion par blocs (dLLM) soigneusement conçu qui adapte efficacement des modèles AR pré-entraînés en dLLMs pour la génération parallèle de texte, nécessitant seulement environ 1 milliard de tokens de réglage fin. Cela représente une réduction de 500 fois des données d'entraînement par rapport aux LLMs à diffusion à pleine attention comme Dream (580 milliards de tokens), tout en préservant les performances du modèle original. Notre approche introduit une nouvelle méthode d'entraînement qui combine un mécanisme de diffusion par blocs avec un masque d'attention complémentaire, permettant une modélisation contextuelle bidirectionnelle par blocs sans sacrifier les objectifs d'entraînement AR. Pour accélérer davantage le décodage, nous concevons un mécanisme de mise en cache hiérarchique : un cache au niveau des blocs qui stocke les représentations contextuelles historiques à travers les blocs, et un cache au niveau des sous-blocs qui permet une génération parallèle efficace au sein de blocs partiellement décodés. Couplé à notre pipeline de décodage parallèle, Fast-dLLM v2 atteint une accélération jusqu'à 2,5 fois par rapport au décodage AR standard sans compromettre la qualité de la génération. Des expériences approfondies sur divers benchmarks démontrent que Fast-dLLM v2 égale ou dépasse les modèles de référence AR en termes de précision, tout en offrant une efficacité de pointe parmi les dLLMs – marquant une étape significative vers le déploiement pratique de LLMs rapides et précis. Le code et le modèle seront rendus publics.
English
Autoregressive (AR) large language models (LLMs) have achieved remarkable
performance across a wide range of natural language tasks, yet their inherent
sequential decoding limits inference efficiency. In this work, we propose
Fast-dLLM v2, a carefully designed block diffusion language model (dLLM) that
efficiently adapts pretrained AR models into dLLMs for parallel text
generation, requiring only approximately 1B tokens of fine-tuning. This
represents a 500x reduction in training data compared to full-attention
diffusion LLMs such as Dream (580B tokens), while preserving the original
model's performance. Our approach introduces a novel training recipe that
combines a block diffusion mechanism with a complementary attention mask,
enabling blockwise bidirectional context modeling without sacrificing AR
training objectives. To further accelerate decoding, we design a hierarchical
caching mechanism: a block-level cache that stores historical context
representations across blocks, and a sub-block cache that enables efficient
parallel generation within partially decoded blocks. Coupled with our parallel
decoding pipeline, Fast-dLLM v2 achieves up to 2.5x speedup over standard AR
decoding without compromising generation quality. Extensive experiments across
diverse benchmarks demonstrate that Fast-dLLM v2 matches or surpasses AR
baselines in accuracy, while delivering state-of-the-art efficiency among dLLMs
- marking a significant step toward the practical deployment of fast and
accurate LLMs. Code and model will be publicly released.