Modelado de Lenguaje Unificado mediante Desruido Continuo

Resumen

Los modelos de lenguaje basados en difusión discreta han atraído un interés generalizado por su potencial para ofrecer una generación más rápida que los modelos autorregresivos. Sin embargo, en la práctica, exhiben una degradación pronunciada de la calidad de las muestras en el régimen de pocos pasos, sin llegar a materializar dicha promesa. Aquí demostramos que los modelos de lenguaje que aprovechan la eliminación de ruido continua basada en flujos pueden superar a la difusión discreta tanto en calidad como en velocidad. Al revisar los fundamentos de los flujos sobre modalidades discretas, construimos un modelo de lenguaje basado en flujos (FLM) que realiza eliminación de ruido euclidiana sobre codificaciones one-hot de tokens. Demostramos que el modelo puede entrenarse prediciendo los datos limpios mediante un objetivo de entropía cruzada, donde introducimos una simple reparametrización temporal que mejora enormemente la estabilidad del entrenamiento y la calidad de la generación. Al destilar FLM en su mapa de flujo asociado, obtenemos un modelo de lenguaje de mapa de flujo destilado (FMLM) capaz de generación en pocos pasos. En los conjuntos de datos lingüísticos LM1B y OWT, FLM alcanza una calidad de generación que iguala a los modelos de difusión discreta de vanguardia. Con FMLM, nuestro enfoque supera en todos los aspectos a los modelos lingüísticos recientes de pocos pasos, donde la generación en un solo paso supera la calidad que estos logran en 8 pasos. Nuestro trabajo cuestiona la hipótesis ampliamente sostenida de que los procesos de difusión discreta son necesarios para el modelado generativo sobre modalidades discretas, y allana el camino hacia el modelado del lenguaje basado en flujos acelerado a gran escala. El código está disponible en https://github.com/david3684/flm.

English

Language models based on discrete diffusion have attracted widespread interest for their potential to provide faster generation than autoregressive models. In practice, however, they exhibit a sharp degradation of sample quality in the few-step regime, failing to realize this promise. Here we show that language models leveraging flow-based continuous denoising can outperform discrete diffusion in both quality and speed. By revisiting the fundamentals of flows over discrete modalities, we build a flow-based language model (FLM) that performs Euclidean denoising over one-hot token encodings. We show that the model can be trained by predicting the clean data via a cross entropy objective, where we introduce a simple time reparameterization that greatly improves training stability and generation quality. By distilling FLM into its associated flow map, we obtain a distilled flow map language model (FMLM) capable of few-step generation. On the LM1B and OWT language datasets, FLM attains generation quality matching state-of-the-art discrete diffusion models. With FMLM, our approach outperforms recent few-step language models across the board, with one-step generation exceeding their 8-step quality. Our work calls into question the widely held hypothesis that discrete diffusion processes are necessary for generative modeling over discrete modalities, and paves the way toward accelerated flow-based language modeling at scale. Code is available at https://github.com/david3684/flm.

Modelado de Lenguaje Unificado mediante Desruido Continuo

One-step Language Modeling via Continuous Denoising

Resumen

Support