Een Overzicht van Diffusie Taalmodellen
A Survey on Diffusion Language Models
August 14, 2025
Auteurs: Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen
cs.AI
Samenvatting
Diffusie Taalmodellen (DLMs) doen zich snel gelden als een krachtig en veelbelovend alternatief voor het dominante autoregressieve (AR) paradigma. Door tokens parallel te genereren via een iteratief denoisingsproces, beschikken DLMs over inherente voordelen in het verminderen van inferentielatentie en het vastleggen van bidirectionele context, waardoor fijnmazige controle over het generatieproces mogelijk wordt gemaakt. Terwijl ze een versnelling met meerdere factoren bereiken, hebben recente ontwikkelingen het mogelijk gemaakt dat DLMs prestaties laten zien die vergelijkbaar zijn met hun autoregressieve tegenhangers, wat hen een aantrekkelijke keuze maakt voor diverse natuurlijke taalverwerkingstaken. In dit overzicht bieden we een holistisch beeld van het huidige DLM-landschap. We volgen de evolutie en de relatie met andere paradigma's, zoals autoregressieve en gemaskeerde taalmodellen, en behandelen zowel fundamentele principes als state-of-the-art modellen. Ons werk biedt een actuele, uitgebreide taxonomie en een diepgaande analyse van huidige technieken, van pre-trainingsstrategieën tot geavanceerde post-trainingsmethoden. Een andere bijdrage van dit overzicht is een grondige bespreking van DLM-inferentiestrategieën en -optimalisaties, waaronder verbeteringen in decodeerparallelisme, cachingmechanismen en generatiekwaliteit. We belichten ook de nieuwste benaderingen voor multimodale uitbreidingen van DLMs en schetsen hun toepassingen in diverse praktijkscenario's. Bovendien gaat onze discussie in op de beperkingen en uitdagingen van DLMs, waaronder efficiëntie, het omgaan met lange sequenties en infrastructuurvereisten, terwijl we toekomstige onderzoeksrichtingen schetsen om de vooruitgang in dit snel evoluerende veld te ondersteunen. Het project GitHub is beschikbaar op https://github.com/VILA-Lab/Awesome-DLMs.
English
Diffusion Language Models (DLMs) are rapidly emerging as a powerful and
promising alternative to the dominant autoregressive (AR) paradigm. By
generating tokens in parallel through an iterative denoising process, DLMs
possess inherent advantages in reducing inference latency and capturing
bidirectional context, thereby enabling fine-grained control over the
generation process. While achieving a several-fold speed-up, recent
advancements have allowed DLMs to show performance comparable to their
autoregressive counterparts, making them a compelling choice for various
natural language processing tasks. In this survey, we provide a holistic
overview of the current DLM landscape. We trace its evolution and relationship
with other paradigms, such as autoregressive and masked language models, and
cover both foundational principles and state-of-the-art models. Our work offers
an up-to-date, comprehensive taxonomy and an in-depth analysis of current
techniques, from pre-training strategies to advanced post-training methods.
Another contribution of this survey is a thorough review of DLM inference
strategies and optimizations, including improvements in decoding parallelism,
caching mechanisms, and generation quality. We also highlight the latest
approaches to multimodal extensions of DLMs and delineate their applications
across various practical scenarios. Furthermore, our discussion addresses the
limitations and challenges of DLMs, including efficiency, long-sequence
handling, and infrastructure requirements, while outlining future research
directions to sustain progress in this rapidly evolving field. Project GitHub
is available at https://github.com/VILA-Lab/Awesome-DLMs.