Eine Übersicht über Diffusionssprachmodelle
A Survey on Diffusion Language Models
August 14, 2025
papers.authors: Tianyi Li, Mingda Chen, Bowei Guo, Zhiqiang Shen
cs.AI
papers.abstract
Diffusionssprachmodelle (DLMs) etablieren sich zunehmend als leistungsstarke und vielversprechende Alternative zum dominanten autoregressiven (AR) Paradigma. Durch die parallele Erzeugung von Tokens mittels eines iterativen Entrauschungsprozesses bieten DLMs inhärente Vorteile bei der Reduzierung der Inferenzlatenz und der Erfassung bidirektionaler Kontexte, wodurch eine fein abgestimmte Steuerung des Generierungsprozesses ermöglicht wird. Während sie eine mehrfache Beschleunigung erreichen, haben jüngste Fortschritte es DLMs ermöglicht, eine mit autoregressiven Modellen vergleichbare Leistung zu erzielen, was sie zu einer überzeugenden Wahl für verschiedene Aufgaben der natürlichen Sprachverarbeitung macht. In dieser Übersichtsarbeit bieten wir einen ganzheitlichen Überblick über die aktuelle DLM-Landschaft. Wir verfolgen ihre Entwicklung und Beziehung zu anderen Paradigmen, wie autoregressiven und maskierten Sprachmodellen, und behandeln sowohl grundlegende Prinzipien als auch state-of-the-art Modelle. Unsere Arbeit bietet eine aktuelle, umfassende Taxonomie und eine detaillierte Analyse der derzeitigen Techniken, von Pre-Training-Strategien bis hin zu fortgeschrittenen Post-Training-Methoden. Ein weiterer Beitrag dieser Übersichtsarbeit ist eine gründliche Untersuchung von DLM-Inferenzstrategien und -Optimierungen, einschließlich Verbesserungen in der Dekodierungsparallelität, Caching-Mechanismen und der Generierungsqualität. Wir beleuchten auch die neuesten Ansätze für multimodale Erweiterungen von DLMs und skizzieren ihre Anwendungen in verschiedenen praktischen Szenarien. Darüber hinaus behandelt unsere Diskussion die Grenzen und Herausforderungen von DLMs, einschließlich Effizienz, Handhabung langer Sequenzen und Infrastrukturanforderungen, und zeigt zukünftige Forschungsrichtungen auf, um den Fortschritt in diesem sich schnell entwickelnden Bereich zu fördern. Das Projekt-GitHub ist verfügbar unter https://github.com/VILA-Lab/Awesome-DLMs.
English
Diffusion Language Models (DLMs) are rapidly emerging as a powerful and
promising alternative to the dominant autoregressive (AR) paradigm. By
generating tokens in parallel through an iterative denoising process, DLMs
possess inherent advantages in reducing inference latency and capturing
bidirectional context, thereby enabling fine-grained control over the
generation process. While achieving a several-fold speed-up, recent
advancements have allowed DLMs to show performance comparable to their
autoregressive counterparts, making them a compelling choice for various
natural language processing tasks. In this survey, we provide a holistic
overview of the current DLM landscape. We trace its evolution and relationship
with other paradigms, such as autoregressive and masked language models, and
cover both foundational principles and state-of-the-art models. Our work offers
an up-to-date, comprehensive taxonomy and an in-depth analysis of current
techniques, from pre-training strategies to advanced post-training methods.
Another contribution of this survey is a thorough review of DLM inference
strategies and optimizations, including improvements in decoding parallelism,
caching mechanisms, and generation quality. We also highlight the latest
approaches to multimodal extensions of DLMs and delineate their applications
across various practical scenarios. Furthermore, our discussion addresses the
limitations and challenges of DLMs, including efficiency, long-sequence
handling, and infrastructure requirements, while outlining future research
directions to sustain progress in this rapidly evolving field. Project GitHub
is available at https://github.com/VILA-Lab/Awesome-DLMs.