Modello di Diffusione Continua per il Modellamento del Linguaggio
Continuous Diffusion Model for Language Modeling
February 17, 2025
Autori: Jaehyeong Jo, Sung Ju Hwang
cs.AI
Abstract
I modelli di diffusione sono emersi come una promettente alternativa ai modelli autoregressivi nella modellazione di dati categorici discreti. Tuttavia, i modelli di diffusione che operano direttamente sullo spazio dei dati discreti non sfruttano appieno il potere del raffinamento iterativo, poiché i segnali si perdono durante la transizione tra stati discreti. I modelli di diffusione continui esistenti per dati discreti hanno prestazioni limitate rispetto agli approcci discreti, e il legame poco chiaro tra di essi ostacola lo sviluppo di modelli di diffusione per dati discreti. In questo lavoro, proponiamo un modello di diffusione continuo per la modellazione del linguaggio che incorpora la geometria della distribuzione categorica sottostante. Stabiliamo una connessione tra la diffusione discreta e il flusso continuo sulla varietà statistica e, basandoci su questa analogia, introduciamo una progettazione semplice per il processo di diffusione che generalizza i precedenti modelli di diffusione discreti. Proponiamo inoltre un framework di addestramento senza simulazione basato sulla simmetria radiale e una tecnica semplice per affrontare l'elevata dimensionalità della varietà. Esperimenti completi su benchmark di modellazione del linguaggio e altre modalità dimostrano che il nostro metodo supera i modelli di diffusione discreti esistenti e si avvicina alle prestazioni dei modelli autoregressivi. I codici sono disponibili all'indirizzo https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.
English
Diffusion models have emerged as a promising alternative to autoregressive
models in modeling discrete categorical data. Yet diffusion models that
directly work on discrete data space do not fully exploit the power of
iterative refinement, as the signals are lost during the transition between
discrete states. Existing continuous diffusion models for discrete data have
limited performance compared to discrete approaches, and the unclear link
between them restricts the development of diffusion models for discrete data.
In this work, we propose a continuous diffusion model for language modeling
that incorporates the geometry of the underlying categorical distribution. We
establish a connection between the discrete diffusion and continuous flow on
the statistical manifold, and building on the analogy, we introduce a simple
design for the diffusion process that generalizes previous discrete diffusion
models. We further propose a simulation-free training framework based on radial
symmetry and a simple technique to address the high dimensionality of the
manifold. Comprehensive experiments on language modeling benchmarks and other
modalities show that our method outperforms existing discrete diffusion models
and approaches the performance of autoregressive models. Codes available at
https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.Summary
AI-Generated Summary