ChatPaper.aiChatPaper

Über die Rolle der Diskretion in Diffusions-LLMs

On the Role of Discreteness in Diffusion LLMs

December 27, 2025
papers.authors: Ziqi Jin, Bin Wang, Xiang Lin, Lidong Bing, Aixin Sun
cs.AI

papers.abstract

Diffusionsmodelle bieten attraktive Eigenschaften für die Sprachgenerierung, wie parallele Decodierung und iterative Verfeinerung. Die diskrete und hochstrukturierte Natur von Text stellt jedoch eine Herausforderung für die direkte Anwendung von Diffusionsprinzipien dar. In diesem Beitrag betrachten wir Diffusions-Sprachmodellierung neu aus der Perspektive des Diffusionsprozesses und der Sprachmodellierung und skizzieren fünf Eigenschaften, die die Diffusionsmechanik von sprachspezifischen Anforderungen trennen. Wir kategorisieren zunächst bestehende Ansätze in kontinuierliche Diffusion im Embedding-Raum und diskrete Diffusion über Tokens. Anschließend zeigen wir, dass jeder Ansatz nur einen Teil der fünf wesentlichen Eigenschaften erfüllt und somit einen strukturellen Kompromiss darstellt. Durch Analysen aktueller großer Diffusions-Sprachmodelle identifizieren wir zwei zentrale Probleme: (i) Gleichförmige Korrumpierung berücksichtigt nicht, wie Informationen über Positionen verteilt sind, und (ii) tokenweise marginales Training kann Abhängigkeiten zwischen mehreren Tokens während der parallelen Decodierung nicht erfassen. Diese Beobachtungen motivieren Diffusionsprozesse, die enger mit der Textstruktur übereinstimmen, und regen zukünftige Arbeiten zu kohärenteren Diffusions-Sprachmodellen an.
English
Diffusion models offer appealing properties for language generation, such as parallel decoding and iterative refinement, but the discrete and highly structured nature of text challenges the direct application of diffusion principles. In this paper, we revisit diffusion language modeling from the view of diffusion process and language modeling, and outline five properties that separate diffusion mechanics from language-specific requirements. We first categorize existing approaches into continuous diffusion in embedding space and discrete diffusion over tokens. We then show that each satisfies only part of the five essential properties and therefore reflects a structural trade-off. Through analyses of recent large diffusion language models, we identify two central issues: (i) uniform corruption does not respect how information is distributed across positions, and (ii) token-wise marginal training cannot capture multi-token dependencies during parallel decoding. These observations motivate diffusion processes that align more closely with the structure of text, and encourage future work toward more coherent diffusion language models.
PDF92January 3, 2026