Modellazione Linguistica Monostadio tramite Denoising Continuo

Abstract

I modelli linguistici basati su diffusione discreta hanno attirato ampio interesse per il loro potenziale di fornire una generazione più rapida rispetto ai modelli autoregressivi. Tuttavia, nella pratica, essi mostrano un netto degrado della qualità del campionamento nel regime a pochi passi, non riuscendo a realizzare questa promessa. Qui dimostriamo che i modelli linguistici che sfruttano la denoising continuo basata su flussi (flow) possono superare la diffusione discreta sia in qualità che in velocità. Rivedendo i fondamenti dei flussi su modalità discrete, costruiamo un modello linguistico basato su flussi (FLM) che esegue la denoising euclidea sulle codifiche one-hot dei token. Mostriamo che il modello può essere addestrato prevedendo i dati puliti tramite un obiettivo di entropia incrociata, dove introduciamo una semplice riparametrizzazione del tempo che migliora notevolmente la stabilità dell'addestramento e la qualità della generazione. Distillando l'FLM nella sua mappa di flusso associata, otteniamo un modello linguistico a mappa di flusso distillata (FMLM) capace di generazione in pochi passi. Sui dataset linguistici LM1B e OWT, l'FLM raggiunge una qualità di generazione pari a quella dei migliori modelli di diffusione discreta. Con l'FMLM, il nostro approccio supera complessivamente i recenti modelli linguistici a pochi passi, con una generazione a un solo passo che supera la loro qualità a 8 passi. Il nostro lavoro mette in discussione l'ipotesi ampiamente diffusa che i processi di diffusione discreta siano necessari per la modellazione generativa su modalità discrete, e apre la strada verso una modellazione linguistica basata su flussi accelerata e su larga scala. Il codice è disponibile all'indirizzo https://github.com/david3684/flm.

English

Language models based on discrete diffusion have attracted widespread interest for their potential to provide faster generation than autoregressive models. In practice, however, they exhibit a sharp degradation of sample quality in the few-step regime, failing to realize this promise. Here we show that language models leveraging flow-based continuous denoising can outperform discrete diffusion in both quality and speed. By revisiting the fundamentals of flows over discrete modalities, we build a flow-based language model (FLM) that performs Euclidean denoising over one-hot token encodings. We show that the model can be trained by predicting the clean data via a cross entropy objective, where we introduce a simple time reparameterization that greatly improves training stability and generation quality. By distilling FLM into its associated flow map, we obtain a distilled flow map language model (FMLM) capable of few-step generation. On the LM1B and OWT language datasets, FLM attains generation quality matching state-of-the-art discrete diffusion models. With FMLM, our approach outperforms recent few-step language models across the board, with one-step generation exceeding their 8-step quality. Our work calls into question the widely held hypothesis that discrete diffusion processes are necessary for generative modeling over discrete modalities, and paves the way toward accelerated flow-based language modeling at scale. Code is available at https://github.com/david3684/flm.

Modellazione Linguistica Monostadio tramite Denoising Continuo

One-step Language Modeling via Continuous Denoising

Abstract

Support