Sur le rôle de la discrétion dans les modèles de langage à diffusion
On the Role of Discreteness in Diffusion LLMs
December 27, 2025
papers.authors: Ziqi Jin, Bin Wang, Xiang Lin, Lidong Bing, Aixin Sun
cs.AI
papers.abstract
Les modèles de diffusion offrent des propriétés attrayantes pour la génération de texte, telles que le décodage parallèle et le raffinement itératif, mais la nature discrète et fortement structurée du langage pose des défis à l'application directe des principes de diffusion. Dans cet article, nous revisitons la modélisation linguistique par diffusion sous l'angle du processus de diffusion et de la modélisation du langage, et identifions cinq propriétés qui distinguent les mécanismes de diffusion des exigences linguistiques spécifiques. Nous catégorisons d'abord les approches existantes en diffusion continue dans l'espace des embeddings et diffusion discrète sur les tokens. Nous montrons ensuite que chacune ne satisfait qu'une partie des cinq propriétés essentielles et reflète donc un compromis structurel. Par l'analyse de récents grands modèles de langage à diffusion, nous identifions deux problèmes centraux : (i) la corruption uniforme ne respecte pas la distribution de l'information selon les positions, et (ii) l'apprentissage marginal token par token ne peut capturer les dépendances multi-tokens lors du décodage parallèle. Ces observations motivent le développement de processus de diffusion mieux alignés avec la structure du texte et encouragent les travaux futurs vers des modèles de langage à diffusion plus cohérents.
English
Diffusion models offer appealing properties for language generation, such as parallel decoding and iterative refinement, but the discrete and highly structured nature of text challenges the direct application of diffusion principles. In this paper, we revisit diffusion language modeling from the view of diffusion process and language modeling, and outline five properties that separate diffusion mechanics from language-specific requirements. We first categorize existing approaches into continuous diffusion in embedding space and discrete diffusion over tokens. We then show that each satisfies only part of the five essential properties and therefore reflects a structural trade-off. Through analyses of recent large diffusion language models, we identify two central issues: (i) uniform corruption does not respect how information is distributed across positions, and (ii) token-wise marginal training cannot capture multi-token dependencies during parallel decoding. These observations motivate diffusion processes that align more closely with the structure of text, and encourage future work toward more coherent diffusion language models.