Una Rassegna sui Modelli Linguistici a Diffusione
A Survey on Diffusion Language Models
August 14, 2025
Autori: Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen
cs.AI
Abstract
I modelli linguistici basati su diffusione (Diffusion Language Models, DLMs) stanno emergendo rapidamente come una valida e promettente alternativa al paradigma autoregressivo (AR) dominante. Generando token in parallelo attraverso un processo iterativo di denoising, i DLMs presentano vantaggi intrinseci nel ridurre la latenza di inferenza e nel catturare il contesto bidirezionale, consentendo così un controllo fine sul processo di generazione. Pur ottenendo un'accelerazione di diverse volte, i recenti progressi hanno permesso ai DLMs di raggiungere prestazioni paragonabili a quelle dei modelli autoregressivi, rendendoli una scelta convincente per varie attività di elaborazione del linguaggio naturale. In questa rassegna, forniamo una panoramica completa dello scenario attuale dei DLMs. Ne tracciamo l'evoluzione e il rapporto con altri paradigmi, come i modelli autoregressivi e quelli basati su mascheramento, e copriamo sia i principi fondamentali che i modelli all'avanguardia. Il nostro lavoro offre una tassonomia aggiornata e completa, nonché un'analisi approfondita delle tecniche attuali, dalle strategie di pre-training ai metodi avanzati di post-training. Un altro contributo di questa rassegna è una revisione accurata delle strategie e delle ottimizzazioni per l'inferenza nei DLMs, inclusi i miglioramenti nel parallelismo di decodifica, nei meccanismi di caching e nella qualità della generazione. Evidenziamo inoltre gli approcci più recenti alle estensioni multimodali dei DLMs e delineiamo le loro applicazioni in vari scenari pratici. Inoltre, la nostra discussione affronta i limiti e le sfide dei DLMs, tra cui l'efficienza, la gestione di sequenze lunghe e i requisiti infrastrutturali, delineando al contempo le direzioni future della ricerca per sostenere i progressi in questo campo in rapida evoluzione. Il progetto GitHub è disponibile all'indirizzo https://github.com/VILA-Lab/Awesome-DLMs.
English
Diffusion Language Models (DLMs) are rapidly emerging as a powerful and
promising alternative to the dominant autoregressive (AR) paradigm. By
generating tokens in parallel through an iterative denoising process, DLMs
possess inherent advantages in reducing inference latency and capturing
bidirectional context, thereby enabling fine-grained control over the
generation process. While achieving a several-fold speed-up, recent
advancements have allowed DLMs to show performance comparable to their
autoregressive counterparts, making them a compelling choice for various
natural language processing tasks. In this survey, we provide a holistic
overview of the current DLM landscape. We trace its evolution and relationship
with other paradigms, such as autoregressive and masked language models, and
cover both foundational principles and state-of-the-art models. Our work offers
an up-to-date, comprehensive taxonomy and an in-depth analysis of current
techniques, from pre-training strategies to advanced post-training methods.
Another contribution of this survey is a thorough review of DLM inference
strategies and optimizations, including improvements in decoding parallelism,
caching mechanisms, and generation quality. We also highlight the latest
approaches to multimodal extensions of DLMs and delineate their applications
across various practical scenarios. Furthermore, our discussion addresses the
limitations and challenges of DLMs, including efficiency, long-sequence
handling, and infrastructure requirements, while outlining future research
directions to sustain progress in this rapidly evolving field. Project GitHub
is available at https://github.com/VILA-Lab/Awesome-DLMs.