ChatPaper.aiChatPaper

Fast-dLLM v2 : Modèle de Langage à Bloc-Diffusion Efficace

Fast-dLLM v2: Efficient Block-Diffusion LLM

September 30, 2025
papers.authors: Chengyue Wu, Hao Zhang, Shuchen Xue, Shizhe Diao, Yonggan Fu, Zhijian Liu, Pavlo Molchanov, Ping Luo, Song Han, Enze Xie
cs.AI

papers.abstract

Les modèles de langage autoregressifs (AR) de grande taille (LLMs) ont atteint des performances remarquables sur une large gamme de tâches de traitement du langage naturel, bien que leur décodage séquentiel inhérent limite l'efficacité de l'inférence. Dans ce travail, nous proposons Fast-dLLM v2, un modèle de langage à diffusion par blocs (dLLM) soigneusement conçu qui adapte efficacement des modèles AR pré-entraînés en dLLMs pour la génération parallèle de texte, nécessitant seulement environ 1 milliard de tokens de réglage fin. Cela représente une réduction de 500 fois des données d'entraînement par rapport aux LLMs à diffusion à pleine attention comme Dream (580 milliards de tokens), tout en préservant les performances du modèle original. Notre approche introduit une nouvelle méthode d'entraînement qui combine un mécanisme de diffusion par blocs avec un masque d'attention complémentaire, permettant une modélisation contextuelle bidirectionnelle par blocs sans sacrifier les objectifs d'entraînement AR. Pour accélérer davantage le décodage, nous concevons un mécanisme de mise en cache hiérarchique : un cache au niveau des blocs qui stocke les représentations contextuelles historiques à travers les blocs, et un cache au niveau des sous-blocs qui permet une génération parallèle efficace au sein de blocs partiellement décodés. Couplé à notre pipeline de décodage parallèle, Fast-dLLM v2 atteint une accélération jusqu'à 2,5 fois par rapport au décodage AR standard sans compromettre la qualité de la génération. Des expériences approfondies sur divers benchmarks démontrent que Fast-dLLM v2 égale ou dépasse les modèles de référence AR en termes de précision, tout en offrant une efficacité de pointe parmi les dLLMs – marquant une étape significative vers le déploiement pratique de LLMs rapides et précis. Le code et le modèle seront rendus publics.
English
Autoregressive (AR) large language models (LLMs) have achieved remarkable performance across a wide range of natural language tasks, yet their inherent sequential decoding limits inference efficiency. In this work, we propose Fast-dLLM v2, a carefully designed block diffusion language model (dLLM) that efficiently adapts pretrained AR models into dLLMs for parallel text generation, requiring only approximately 1B tokens of fine-tuning. This represents a 500x reduction in training data compared to full-attention diffusion LLMs such as Dream (580B tokens), while preserving the original model's performance. Our approach introduces a novel training recipe that combines a block diffusion mechanism with a complementary attention mask, enabling blockwise bidirectional context modeling without sacrificing AR training objectives. To further accelerate decoding, we design a hierarchical caching mechanism: a block-level cache that stores historical context representations across blocks, and a sub-block cache that enables efficient parallel generation within partially decoded blocks. Coupled with our parallel decoding pipeline, Fast-dLLM v2 achieves up to 2.5x speedup over standard AR decoding without compromising generation quality. Extensive experiments across diverse benchmarks demonstrate that Fast-dLLM v2 matches or surpasses AR baselines in accuracy, while delivering state-of-the-art efficiency among dLLMs - marking a significant step toward the practical deployment of fast and accurate LLMs. Code and model will be publicly released.
PDF447October 8, 2025