Ein-Schritt-Sprachmodellierung durch kontinuierliches Entrauschen

Zusammenfassung

Sprachmodelle auf Basis diskreter Diffusion haben aufgrund ihres Potenzials, schnellere Generierung als autoregressive Modelle zu ermöglichen, breites Interesse geweckt. In der Praxis zeigt sich jedoch eine starke Verschlechterung der Probenqualität im Few-Step-Bereich, wodurch sich diese Verheißung nicht erfüllt. Hier zeigen wir, dass Sprachmodelle, die auf flow-basierter kontinuierlicher Entrauschung aufbauen, die diskrete Diffusion sowohl in Qualität als auch Geschwindigkeit übertreffen können. Durch eine Neubetrachtung der Grundlagen von Flows über diskrete Modalitäten entwickeln wir ein flow-basiertes Sprachmodell (FLM), das euklidische Entrauschung auf One-Hot-Token-Kodierungen durchführt. Wir zeigen, dass das Modell trainiert werden kann, indem die bereinigten Daten über ein Kreuzentropie-Ziel vorhergesagt werden, wobei wir eine einfache Zeit-Reparameterisierung einführen, die die Trainingsstabilität und Generierungsqualität erheblich verbessert. Durch Distillation des FLM in seine zugehörige Flow-Map erhalten wir ein distilliertes Flow-Map-Sprachmodell (FMLM), das Few-Step-Generierung ermöglicht. Auf den Sprachdatensätzen LM1B und OWT erreicht FLM eine Generierungsqualität, die mit modernsten diskreten Diffusionsmodellen vergleichbar ist. Mit FMLM übertrifft unser Ansatz aktuelle Few-Step-Sprachmodelle durchgängig, wobei die Ein-Schritt-Generierung deren 8-Schritt-Qualität übertrifft. Unsere Arbeit stellt die weit verbreitete Hypothese infrage, dass diskrete Diffusionsprozesse für generative Modellierung über diskrete Modalitäten notwendig sind, und ebnet den Weg für beschleunigte flow-basierte Sprachmodellierung im großen Maßstab. Code ist verfügbar unter https://github.com/david3684/flm.

English

Language models based on discrete diffusion have attracted widespread interest for their potential to provide faster generation than autoregressive models. In practice, however, they exhibit a sharp degradation of sample quality in the few-step regime, failing to realize this promise. Here we show that language models leveraging flow-based continuous denoising can outperform discrete diffusion in both quality and speed. By revisiting the fundamentals of flows over discrete modalities, we build a flow-based language model (FLM) that performs Euclidean denoising over one-hot token encodings. We show that the model can be trained by predicting the clean data via a cross entropy objective, where we introduce a simple time reparameterization that greatly improves training stability and generation quality. By distilling FLM into its associated flow map, we obtain a distilled flow map language model (FMLM) capable of few-step generation. On the LM1B and OWT language datasets, FLM attains generation quality matching state-of-the-art discrete diffusion models. With FMLM, our approach outperforms recent few-step language models across the board, with one-step generation exceeding their 8-step quality. Our work calls into question the widely held hypothesis that discrete diffusion processes are necessary for generative modeling over discrete modalities, and paves the way toward accelerated flow-based language modeling at scale. Code is available at https://github.com/david3684/flm.

Ein-Schritt-Sprachmodellierung durch kontinuierliches Entrauschen

One-step Language Modeling via Continuous Denoising

Zusammenfassung

Support