Continueel Diffusiemodel voor Taalmodellering

Samenvatting

Diffusiemodellen zijn naar voren gekomen als een veelbelovend alternatief voor autoregressieve modellen bij het modelleren van discrete categorische data. Toch benutten diffusiemodellen die rechtstreeks werken op discrete data de kracht van iteratieve verfijning niet volledig, omdat de signalen verloren gaan tijdens de overgang tussen discrete toestanden. Bestaande continue diffusiemodellen voor discrete data presteren beperkt in vergelijking met discrete benaderingen, en de onduidelijke link tussen beide belemmert de ontwikkeling van diffusiemodellen voor discrete data. In dit werk stellen we een continu diffusiemodel voor taalmodellering voor dat de geometrie van de onderliggende categorische verdeling incorporeert. We leggen een verband tussen discrete diffusie en continue stroming op de statistische variëteit, en voortbouwend op deze analogie introduceren we een eenvoudig ontwerp voor het diffusieproces dat eerdere discrete diffusiemodellen generaliseert. We stellen verder een simulatievrij trainingsraamwerk voor op basis van radiale symmetrie en een eenvoudige techniek om de hoge dimensionaliteit van de variëteit aan te pakken. Uitgebreide experimenten op taalmodelleringsbenchmarks en andere modaliteiten tonen aan dat onze methode bestaande discrete diffusiemodellen overtreft en de prestaties van autoregressieve modellen benadert. Code is beschikbaar op https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.

English

Diffusion models have emerged as a promising alternative to autoregressive models in modeling discrete categorical data. Yet diffusion models that directly work on discrete data space do not fully exploit the power of iterative refinement, as the signals are lost during the transition between discrete states. Existing continuous diffusion models for discrete data have limited performance compared to discrete approaches, and the unclear link between them restricts the development of diffusion models for discrete data. In this work, we propose a continuous diffusion model for language modeling that incorporates the geometry of the underlying categorical distribution. We establish a connection between the discrete diffusion and continuous flow on the statistical manifold, and building on the analogy, we introduce a simple design for the diffusion process that generalizes previous discrete diffusion models. We further propose a simulation-free training framework based on radial symmetry and a simple technique to address the high dimensionality of the manifold. Comprehensive experiments on language modeling benchmarks and other modalities show that our method outperforms existing discrete diffusion models and approaches the performance of autoregressive models. Codes available at https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.

Continueel Diffusiemodel voor Taalmodellering

Continuous Diffusion Model for Language Modeling

Samenvatting

Support