Eénstaps Taalmodelering via Continue Denoisering

Samenvatting

Op discrete diffusie gebaseerde taalmodel(len) hebben brede belangstelling gewekt vanwege hun potentieel om snellere generatie te bieden dan autoregressieve modellen. In de praktijk vertonen ze echter een sterke degradatie van de steekproefkwaliteit in het few-step regime, waardoor deze belofte niet wordt waargemaakt. Hier tonen we aan dat taalmodel(len) die gebruikmaken van flow-gebaseerde continue denoisering, discrete diffusie kunnen overtreffen in zowel kwaliteit als snelheid. Door de fundamenten van flows over discrete modaliteiten opnieuw te bekijken, bouwen we een flow-gebaseerd taalmodel (FLM) dat Euclidische denoisering uitvoert op one-hot token coderingen. We laten zien dat het model getraind kan worden door de schone data te voorspellen via een cross-entropy doelstelling, waarbij we een eenvoudige tijdherparameterisatie introduceren die de trainingsstabiliteit en generatiekwaliteit aanzienlijk verbetert. Door FLM te destilleren in zijn geassocieerde flow map, verkrijgen we een gedestilleerd flow map taalmodel (FMLM) dat in staat is tot few-step generatie. Op de LM1B en OWT taaldatasets bereikt FLM een generatiekwaliteit die overeenkomt met state-of-the-art discrete diffusiemodellen. Met FMLM overtreft onze aanpak recente few-step taalmodel(len) op alle fronten, waarbij generatie in één stap hun 8-staps kwaliteit overstijgt. Ons werk trekt de wijdverbreide hypothese in twijfel dat discrete diffusieprocessen noodzakelijk zijn voor generatieve modellering over discrete modaliteiten, en baant de weg naar versnelde flow-gebaseerde taalmodellering op grote schaal. Code is beschikbaar op https://github.com/david3684/flm.

English

Language models based on discrete diffusion have attracted widespread interest for their potential to provide faster generation than autoregressive models. In practice, however, they exhibit a sharp degradation of sample quality in the few-step regime, failing to realize this promise. Here we show that language models leveraging flow-based continuous denoising can outperform discrete diffusion in both quality and speed. By revisiting the fundamentals of flows over discrete modalities, we build a flow-based language model (FLM) that performs Euclidean denoising over one-hot token encodings. We show that the model can be trained by predicting the clean data via a cross entropy objective, where we introduce a simple time reparameterization that greatly improves training stability and generation quality. By distilling FLM into its associated flow map, we obtain a distilled flow map language model (FMLM) capable of few-step generation. On the LM1B and OWT language datasets, FLM attains generation quality matching state-of-the-art discrete diffusion models. With FMLM, our approach outperforms recent few-step language models across the board, with one-step generation exceeding their 8-step quality. Our work calls into question the widely held hypothesis that discrete diffusion processes are necessary for generative modeling over discrete modalities, and paves the way toward accelerated flow-based language modeling at scale. Code is available at https://github.com/david3684/flm.

Eénstaps Taalmodelering via Continue Denoisering

One-step Language Modeling via Continuous Denoising

Samenvatting

Support