ChatPaper.aiChatPaper

Diffusion discrète dans les grands modèles linguistiques et multimodaux : une revue

Discrete Diffusion in Large Language and Multimodal Models: A Survey

June 16, 2025
Auteurs: Runpeng Yu, Qi Li, Xinchao Wang
cs.AI

Résumé

Dans ce travail, nous proposons une étude systématique des modèles de langage à diffusion discrète (dLLMs) et des modèles de langage multimodal à diffusion discrète (dMLLMs). Contrairement aux modèles autorégressifs (AR), les dLLMs et dMLLMs adoptent un paradigme de décodage parallèle multi-token utilisant une attention complète et une stratégie de génération basée sur le débruitage. Ce paradigme permet naturellement une génération parallèle, une contrôlabilité fine des sorties et une perception dynamique et réactive. Ces capacités étaient auparavant difficiles à atteindre avec les modèles AR. Récemment, un nombre croissant de d(M)LLMs propriétaires à l'échelle industrielle, ainsi qu'un grand nombre de d(M)LLMs académiques open-source, ont démontré des performances comparables à leurs homologues autorégressifs, tout en atteignant une accélération jusqu'à 10x en vitesse d'inférence. L'avancée des dLLMs et dMLLMs à diffusion discrète a été largement motivée par les progrès dans deux domaines. Le premier est le développement des dLLMs et dMLLMs autorégressifs, qui a accumulé de vastes quantités de données, de benchmarks et d'infrastructures fondamentales pour l'entraînement et l'inférence. Le deuxième domaine contributif est l'évolution des modèles mathématiques sous-jacents à la diffusion discrète. Ensemble, ces avancées ont catalysé une explosion de la recherche sur les dLLMs et dMLLMs au début de l'année 2025. Dans ce travail, nous présentons un aperçu complet de la recherche dans les domaines des dLLMs et dMLLMs. Nous retraçons le développement historique des dLLMs et dMLLMs, formalisons les cadres mathématiques sous-jacents et catégorisons les modèles représentatifs. Nous analysons en outre les techniques clés pour l'entraînement et l'inférence, et résumons les applications émergentes dans les domaines du langage, de la vision-langage et de la biologie. Nous concluons en discutant des orientations futures pour la recherche et le déploiement. Collection de papiers : https://github.com/LiQiiiii/DLLM-Survey
English
In this work, we provide a systematic survey of Discrete Diffusion Language Models (dLLMs) and Discrete Diffusion Multimodal Language Models (dMLLMs). Unlike autoregressive (AR) models, dLLMs and dMLLMs adopt a multi-token, parallel decoding paradigm using full attention and a denoising-based generation strategy. This paradigm naturally enables parallel generation, fine-grained output controllability, and dynamic, response-aware perception. These capabilities are previously difficult to achieve with AR models. Recently, a growing number of industrial-scale proprietary d(M)LLMs, as well as a large number of open-source academic d(M)LLMs, have demonstrated performance comparable to their autoregressive counterparts, while achieving up to 10x acceleration in inference speed. The advancement of discrete diffusion LLMs and MLLMs has been largely driven by progress in two domains. The first is the development of autoregressive LLMs and MLLMs, which has accumulated vast amounts of data, benchmarks, and foundational infrastructure for training and inference. The second contributing domain is the evolution of the mathematical models underlying discrete diffusion. Together, these advancements have catalyzed a surge in dLLMs and dMLLMs research in early 2025. In this work, we present a comprehensive overview of the research in the dLLM and dMLLM domains. We trace the historical development of dLLMs and dMLLMs, formalize the underlying mathematical frameworks, and categorize representative models. We further analyze key techniques for training and inference, and summarize emerging applications across language, vision-language, and biological domains. We conclude by discussing future directions for research and deployment. Paper collection: https://github.com/LiQiiiii/DLLM-Survey
PDF313June 17, 2025