Continueel Diffusiemodel voor Taalmodellering
Continuous Diffusion Model for Language Modeling
February 17, 2025
Auteurs: Jaehyeong Jo, Sung Ju Hwang
cs.AI
Samenvatting
Diffusiemodellen zijn naar voren gekomen als een veelbelovend alternatief voor autoregressieve modellen bij het modelleren van discrete categorische data. Toch benutten diffusiemodellen die rechtstreeks werken op discrete data de kracht van iteratieve verfijning niet volledig, omdat de signalen verloren gaan tijdens de overgang tussen discrete toestanden. Bestaande continue diffusiemodellen voor discrete data presteren beperkt in vergelijking met discrete benaderingen, en de onduidelijke link tussen beide belemmert de ontwikkeling van diffusiemodellen voor discrete data. In dit werk stellen we een continu diffusiemodel voor taalmodellering voor dat de geometrie van de onderliggende categorische verdeling incorporeert. We leggen een verband tussen discrete diffusie en continue stroming op de statistische variëteit, en voortbouwend op deze analogie introduceren we een eenvoudig ontwerp voor het diffusieproces dat eerdere discrete diffusiemodellen generaliseert. We stellen verder een simulatievrij trainingsraamwerk voor op basis van radiale symmetrie en een eenvoudige techniek om de hoge dimensionaliteit van de variëteit aan te pakken. Uitgebreide experimenten op taalmodelleringsbenchmarks en andere modaliteiten tonen aan dat onze methode bestaande discrete diffusiemodellen overtreft en de prestaties van autoregressieve modellen benadert. Code is beschikbaar op https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.
English
Diffusion models have emerged as a promising alternative to autoregressive
models in modeling discrete categorical data. Yet diffusion models that
directly work on discrete data space do not fully exploit the power of
iterative refinement, as the signals are lost during the transition between
discrete states. Existing continuous diffusion models for discrete data have
limited performance compared to discrete approaches, and the unclear link
between them restricts the development of diffusion models for discrete data.
In this work, we propose a continuous diffusion model for language modeling
that incorporates the geometry of the underlying categorical distribution. We
establish a connection between the discrete diffusion and continuous flow on
the statistical manifold, and building on the analogy, we introduce a simple
design for the diffusion process that generalizes previous discrete diffusion
models. We further propose a simulation-free training framework based on radial
symmetry and a simple technique to address the high dimensionality of the
manifold. Comprehensive experiments on language modeling benchmarks and other
modalities show that our method outperforms existing discrete diffusion models
and approaches the performance of autoregressive models. Codes available at
https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.Summary
AI-Generated Summary