Over de rol van discretie in diffusion LLM's
On the Role of Discreteness in Diffusion LLMs
December 27, 2025
Auteurs: Ziqi Jin, Bin Wang, Xiang Lin, Lidong Bing, Aixin Sun
cs.AI
Samenvatting
Diffusiemodellen bieden aantrekkelijke eigenschappen voor taalgeneratie, zoals parallelle decodering en iteratieve verfijning, maar de discrete en sterk gestructureerde aard van tekst vormt een uitdaging voor de directe toepassing van diffusieprincipes. In dit artikel herbezien we diffusie-taalmodelering vanuit het perspectief van het diffusieproces en taalmodelering, en schetsen we vijf eigenschappen die de mechanica van diffusie scheiden van taalspecifieke vereisten. We categoriseren eerst bestaande benaderingen in continue diffusie in de embeddedingsruimte en discrete diffusie over tokens. Vervolgens tonen we aan dat elk slechts een deel van de vijf essentiële eigenschappen vervult en dus een structurele afweging weerspiegelt. Door analyses van recente grootschalige diffusie-taalmodellen identificeren we twee centrale problemen: (i) uniforme corruptie houdt geen rekening met hoe informatie over posities is verdeeld, en (ii) training op marginale token-distributies kan afhankelijkheden tussen meerdere tokens niet vastleggen tijdens parallelle decodering. Deze observaties motiveren diffusieprocessen die beter aansluiten bij de structuur van tekst, en moedigen toekomstig onderzoek aan naar coherentere diffusie-taalmodellen.
English
Diffusion models offer appealing properties for language generation, such as parallel decoding and iterative refinement, but the discrete and highly structured nature of text challenges the direct application of diffusion principles. In this paper, we revisit diffusion language modeling from the view of diffusion process and language modeling, and outline five properties that separate diffusion mechanics from language-specific requirements. We first categorize existing approaches into continuous diffusion in embedding space and discrete diffusion over tokens. We then show that each satisfies only part of the five essential properties and therefore reflects a structural trade-off. Through analyses of recent large diffusion language models, we identify two central issues: (i) uniform corruption does not respect how information is distributed across positions, and (ii) token-wise marginal training cannot capture multi-token dependencies during parallel decoding. These observations motivate diffusion processes that align more closely with the structure of text, and encourage future work toward more coherent diffusion language models.