Uma Análise sobre Modelos de Linguagem de Difusão
A Survey on Diffusion Language Models
August 14, 2025
Autores: Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen
cs.AI
Resumo
Os Modelos de Linguagem de Difusão (DLMs, na sigla em inglês) estão emergindo rapidamente como uma alternativa poderosa e promissora ao paradigma autoregessivo (AR) dominante. Ao gerar tokens em paralelo por meio de um processo iterativo de remoção de ruído, os DLMs possuem vantagens inerentes na redução da latência de inferência e na captura de contexto bidirecional, permitindo assim um controle refinado sobre o processo de geração. Embora tenham alcançado uma aceleração de várias vezes, avanços recentes permitiram que os DLMs apresentassem desempenho comparável aos seus equivalentes autoregessivos, tornando-os uma escolha atraente para diversas tarefas de processamento de linguagem natural. Nesta pesquisa, fornecemos uma visão holística do cenário atual dos DLMs. Traçamos sua evolução e relação com outros paradigmas, como modelos autoregessivos e de linguagem mascarada, e cobrimos tanto os princípios fundamentais quanto os modelos de última geração. Nosso trabalho oferece uma taxonomia atualizada e abrangente, além de uma análise detalhada das técnicas atuais, desde estratégias de pré-treinamento até métodos avançados de pós-treinamento. Outra contribuição desta pesquisa é uma revisão minuciosa das estratégias e otimizações de inferência dos DLMs, incluindo melhorias no paralelismo de decodificação, mecanismos de cache e qualidade da geração. Também destacamos as abordagens mais recentes para extensões multimodais dos DLMs e delineamos suas aplicações em diversos cenários práticos. Além disso, nossa discussão aborda as limitações e desafios dos DLMs, incluindo eficiência, manipulação de sequências longas e requisitos de infraestrutura, ao mesmo tempo em que delineia direções futuras de pesquisa para sustentar o progresso neste campo em rápida evolução. O projeto GitHub está disponível em https://github.com/VILA-Lab/Awesome-DLMs.
English
Diffusion Language Models (DLMs) are rapidly emerging as a powerful and
promising alternative to the dominant autoregressive (AR) paradigm. By
generating tokens in parallel through an iterative denoising process, DLMs
possess inherent advantages in reducing inference latency and capturing
bidirectional context, thereby enabling fine-grained control over the
generation process. While achieving a several-fold speed-up, recent
advancements have allowed DLMs to show performance comparable to their
autoregressive counterparts, making them a compelling choice for various
natural language processing tasks. In this survey, we provide a holistic
overview of the current DLM landscape. We trace its evolution and relationship
with other paradigms, such as autoregressive and masked language models, and
cover both foundational principles and state-of-the-art models. Our work offers
an up-to-date, comprehensive taxonomy and an in-depth analysis of current
techniques, from pre-training strategies to advanced post-training methods.
Another contribution of this survey is a thorough review of DLM inference
strategies and optimizations, including improvements in decoding parallelism,
caching mechanisms, and generation quality. We also highlight the latest
approaches to multimodal extensions of DLMs and delineate their applications
across various practical scenarios. Furthermore, our discussion addresses the
limitations and challenges of DLMs, including efficiency, long-sequence
handling, and infrastructure requirements, while outlining future research
directions to sustain progress in this rapidly evolving field. Project GitHub
is available at https://github.com/VILA-Lab/Awesome-DLMs.