Una Revisión sobre Modelos de Lenguaje Basados en Difusión
A Survey on Diffusion Language Models
August 14, 2025
Autores: Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen
cs.AI
Resumen
Los Modelos de Lenguaje de Difusión (DLMs, por sus siglas en inglés) están surgiendo rápidamente como una alternativa poderosa y prometedora al paradigma autoregresivo (AR) dominante. Al generar tokens en paralelo a través de un proceso iterativo de eliminación de ruido, los DLMs poseen ventajas inherentes en la reducción de la latencia de inferencia y la captura de contexto bidireccional, lo que permite un control más fino sobre el proceso de generación. Aunque logran una aceleración de varias veces, los avances recientes han permitido que los DLMs muestren un rendimiento comparable al de sus contrapartes autoregresivas, convirtiéndolos en una opción atractiva para diversas tareas de procesamiento del lenguaje natural. En este estudio, proporcionamos una visión holística del panorama actual de los DLMs. Rastreamos su evolución y relación con otros paradigmas, como los modelos autoregresivos y los modelos de lenguaje enmascarado, y cubrimos tanto los principios fundamentales como los modelos de vanguardia. Nuestro trabajo ofrece una taxonomía actualizada y exhaustiva, junto con un análisis en profundidad de las técnicas actuales, desde estrategias de pre-entrenamiento hasta métodos avanzados de post-entrenamiento. Otra contribución de este estudio es una revisión detallada de las estrategias y optimizaciones de inferencia de los DLMs, incluyendo mejoras en el paralelismo de decodificación, mecanismos de almacenamiento en caché y calidad de generación. También destacamos los últimos enfoques en las extensiones multimodales de los DLMs y delineamos sus aplicaciones en diversos escenarios prácticos. Además, nuestra discusión aborda las limitaciones y desafíos de los DLMs, incluyendo la eficiencia, el manejo de secuencias largas y los requisitos de infraestructura, al tiempo que se esbozan direcciones futuras de investigación para sostener el progreso en este campo en rápida evolución. El proyecto GitHub está disponible en https://github.com/VILA-Lab/Awesome-DLMs.
English
Diffusion Language Models (DLMs) are rapidly emerging as a powerful and
promising alternative to the dominant autoregressive (AR) paradigm. By
generating tokens in parallel through an iterative denoising process, DLMs
possess inherent advantages in reducing inference latency and capturing
bidirectional context, thereby enabling fine-grained control over the
generation process. While achieving a several-fold speed-up, recent
advancements have allowed DLMs to show performance comparable to their
autoregressive counterparts, making them a compelling choice for various
natural language processing tasks. In this survey, we provide a holistic
overview of the current DLM landscape. We trace its evolution and relationship
with other paradigms, such as autoregressive and masked language models, and
cover both foundational principles and state-of-the-art models. Our work offers
an up-to-date, comprehensive taxonomy and an in-depth analysis of current
techniques, from pre-training strategies to advanced post-training methods.
Another contribution of this survey is a thorough review of DLM inference
strategies and optimizations, including improvements in decoding parallelism,
caching mechanisms, and generation quality. We also highlight the latest
approaches to multimodal extensions of DLMs and delineate their applications
across various practical scenarios. Furthermore, our discussion addresses the
limitations and challenges of DLMs, including efficiency, long-sequence
handling, and infrastructure requirements, while outlining future research
directions to sustain progress in this rapidly evolving field. Project GitHub
is available at https://github.com/VILA-Lab/Awesome-DLMs.