ChatPaper.aiChatPaper

Difusão Discreta em Modelos de Linguagem e Multimodais de Grande Escala: Uma Revisão

Discrete Diffusion in Large Language and Multimodal Models: A Survey

June 16, 2025
Autores: Runpeng Yu, Qi Li, Xinchao Wang
cs.AI

Resumo

Neste trabalho, apresentamos uma revisão sistemática dos Modelos de Linguagem de Difusão Discreta (dLLMs) e dos Modelos de Linguagem Multimodal de Difusão Discreta (dMLLMs). Diferentemente dos modelos autoregressivos (AR), os dLLMs e dMLLMs adotam um paradigma de decodificação paralela de múltiplos tokens, utilizando atenção completa e uma estratégia de geração baseada em remoção de ruído. Esse paradigma permite naturalmente a geração paralela, a controlabilidade refinada da saída e a percepção dinâmica e consciente da resposta. Essas capacidades eram anteriormente difíceis de alcançar com modelos AR. Recentemente, um número crescente de d(M)LLMs proprietários em escala industrial, bem como uma grande quantidade de d(M)LLMs acadêmicos de código aberto, demonstraram desempenho comparável aos seus equivalentes autoregressivos, enquanto alcançam uma aceleração de até 10x na velocidade de inferência. O avanço dos dLLMs e dMLLMs de difusão discreta tem sido impulsionado principalmente pelo progresso em dois domínios. O primeiro é o desenvolvimento de dLLMs e dMLLMs autoregressivos, que acumularam grandes quantidades de dados, benchmarks e infraestrutura fundamental para treinamento e inferência. O segundo domínio contribuinte é a evolução dos modelos matemáticos subjacentes à difusão discreta. Juntos, esses avanços catalisaram um aumento na pesquisa de dLLMs e dMLLMs no início de 2025. Neste trabalho, apresentamos uma visão abrangente da pesquisa nos domínios de dLLM e dMLLM. Traçamos o desenvolvimento histórico dos dLLMs e dMLLMs, formalizamos os frameworks matemáticos subjacentes e categorizamos os modelos representativos. Além disso, analisamos as técnicas-chave para treinamento e inferência e resumimos as aplicações emergentes em domínios de linguagem, visão-linguagem e biologia. Concluímos discutindo direções futuras para pesquisa e implantação. Coleção de artigos: https://github.com/LiQiiiii/DLLM-Survey
English
In this work, we provide a systematic survey of Discrete Diffusion Language Models (dLLMs) and Discrete Diffusion Multimodal Language Models (dMLLMs). Unlike autoregressive (AR) models, dLLMs and dMLLMs adopt a multi-token, parallel decoding paradigm using full attention and a denoising-based generation strategy. This paradigm naturally enables parallel generation, fine-grained output controllability, and dynamic, response-aware perception. These capabilities are previously difficult to achieve with AR models. Recently, a growing number of industrial-scale proprietary d(M)LLMs, as well as a large number of open-source academic d(M)LLMs, have demonstrated performance comparable to their autoregressive counterparts, while achieving up to 10x acceleration in inference speed. The advancement of discrete diffusion LLMs and MLLMs has been largely driven by progress in two domains. The first is the development of autoregressive LLMs and MLLMs, which has accumulated vast amounts of data, benchmarks, and foundational infrastructure for training and inference. The second contributing domain is the evolution of the mathematical models underlying discrete diffusion. Together, these advancements have catalyzed a surge in dLLMs and dMLLMs research in early 2025. In this work, we present a comprehensive overview of the research in the dLLM and dMLLM domains. We trace the historical development of dLLMs and dMLLMs, formalize the underlying mathematical frameworks, and categorize representative models. We further analyze key techniques for training and inference, and summarize emerging applications across language, vision-language, and biological domains. We conclude by discussing future directions for research and deployment. Paper collection: https://github.com/LiQiiiii/DLLM-Survey
PDF413June 17, 2025