Une étude sur les modèles de langage par diffusion
A Survey on Diffusion Language Models
August 14, 2025
papers.authors: Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen
cs.AI
papers.abstract
Les modèles de langage par diffusion (Diffusion Language Models, DLMs) émergent rapidement comme une alternative puissante et prometteuse au paradigme dominant des modèles autorégressifs (AR). En générant des tokens en parallèle via un processus itératif de débruitage, les DLMs présentent des avantages intrinsèques pour réduire la latence d'inférence et capturer un contexte bidirectionnel, permettant ainsi un contrôle fin du processus de génération. Tout en obtenant une accélération significative, les récentes avancées ont permis aux DLMs d'atteindre des performances comparables à celles des modèles autorégressifs, en faisant un choix attrayant pour diverses tâches de traitement du langage naturel. Dans cette étude, nous proposons une vue d'ensemble holistique du paysage actuel des DLMs. Nous retraçons leur évolution et leur relation avec d'autres paradigmes, tels que les modèles autorégressifs et les modèles de langage masqués, et couvrons à la fois les principes fondamentaux et les modèles de pointe. Notre travail offre une taxonomie actualisée et complète, ainsi qu'une analyse approfondie des techniques actuelles, des stratégies de pré-entraînement aux méthodes avancées de post-entraînement. Une autre contribution de cette étude est une revue exhaustive des stratégies et optimisations d'inférence des DLMs, incluant les améliorations en parallélisme de décodage, les mécanismes de mise en cache et la qualité de génération. Nous mettons également en lumière les dernières approches d'extensions multimodales des DLMs et décrivons leurs applications dans divers scénarios pratiques. Enfin, notre discussion aborde les limitations et défis des DLMs, notamment en termes d'efficacité, de gestion des longues séquences et de besoins en infrastructure, tout en esquissant des directions de recherche futures pour soutenir les progrès dans ce domaine en évolution rapide. Le projet GitHub est disponible à l'adresse suivante : https://github.com/VILA-Lab/Awesome-DLMs.
English
Diffusion Language Models (DLMs) are rapidly emerging as a powerful and
promising alternative to the dominant autoregressive (AR) paradigm. By
generating tokens in parallel through an iterative denoising process, DLMs
possess inherent advantages in reducing inference latency and capturing
bidirectional context, thereby enabling fine-grained control over the
generation process. While achieving a several-fold speed-up, recent
advancements have allowed DLMs to show performance comparable to their
autoregressive counterparts, making them a compelling choice for various
natural language processing tasks. In this survey, we provide a holistic
overview of the current DLM landscape. We trace its evolution and relationship
with other paradigms, such as autoregressive and masked language models, and
cover both foundational principles and state-of-the-art models. Our work offers
an up-to-date, comprehensive taxonomy and an in-depth analysis of current
techniques, from pre-training strategies to advanced post-training methods.
Another contribution of this survey is a thorough review of DLM inference
strategies and optimizations, including improvements in decoding parallelism,
caching mechanisms, and generation quality. We also highlight the latest
approaches to multimodal extensions of DLMs and delineate their applications
across various practical scenarios. Furthermore, our discussion addresses the
limitations and challenges of DLMs, including efficiency, long-sequence
handling, and infrastructure requirements, while outlining future research
directions to sustain progress in this rapidly evolving field. Project GitHub
is available at https://github.com/VILA-Lab/Awesome-DLMs.