Modélisation du langage en une étape via le débruitage continu

Résumé

Les modèles de langage basés sur la diffusion discrète ont suscité un intérêt considérable pour leur potentiel à générer du texte plus rapidement que les modèles autorégressifs. Cependant, en pratique, ils présentent une dégradation marquée de la qualité des échantillons dans un régime à faible nombre d'étapes, ne permettant pas de concrétiser cette promesse. Nous démontrons ici que les modèles de langage exploitant le dé-bruitage continu basé sur les flux peuvent surpasser la diffusion discrète à la fois en qualité et en vitesse. En revisitant les fondamentaux des flux pour les modalités discrètes, nous construisons un modèle de langage à flux (FLM) qui effectue un dé-bruitage Euclidien sur des encodages one-hot de tokens. Nous montrons que le modèle peut être entraîné en prédisant les données propres via un objectif d'entropie croisée, pour lequel nous introduisons une reparamétrisation temporelle simple qui améliore considérablement la stabilité de l'entraînement et la qualité de la génération. En distillant le FLM dans sa carte de flux associée, nous obtenons un modèle de langage à carte de flux distillée (FMLM) capable de génération en peu d'étapes. Sur les ensembles de données linguistiques LM1B et OWT, le FLM atteint une qualité de génération équivalente aux modèles de diffusion discrets de pointe. Avec le FMLM, notre approche surpasse systématiquement les modèles de langage récents à faible nombre d'étapes, la génération en une seule étape dépassant leur qualité en 8 étapes. Notre travail remet en question l'hypothèse largement répandue que les processus de diffusion discrets sont nécessaires pour la modélisation générative sur des modalités discrètes, et ouvre la voie vers une modélisation du langage basée sur les flux à grande échelle et accélérée. Le code est disponible à l'adresse https://github.com/david3684/flm.

English

Language models based on discrete diffusion have attracted widespread interest for their potential to provide faster generation than autoregressive models. In practice, however, they exhibit a sharp degradation of sample quality in the few-step regime, failing to realize this promise. Here we show that language models leveraging flow-based continuous denoising can outperform discrete diffusion in both quality and speed. By revisiting the fundamentals of flows over discrete modalities, we build a flow-based language model (FLM) that performs Euclidean denoising over one-hot token encodings. We show that the model can be trained by predicting the clean data via a cross entropy objective, where we introduce a simple time reparameterization that greatly improves training stability and generation quality. By distilling FLM into its associated flow map, we obtain a distilled flow map language model (FMLM) capable of few-step generation. On the LM1B and OWT language datasets, FLM attains generation quality matching state-of-the-art discrete diffusion models. With FMLM, our approach outperforms recent few-step language models across the board, with one-step generation exceeding their 8-step quality. Our work calls into question the widely held hypothesis that discrete diffusion processes are necessary for generative modeling over discrete modalities, and paves the way toward accelerated flow-based language modeling at scale. Code is available at https://github.com/david3684/flm.

Modélisation du langage en une étape via le débruitage continu

One-step Language Modeling via Continuous Denoising

Résumé

Support