Modelagem de Linguagem em Um Único Passo por Meio de Desruídos Contínuos

Resumo

Os modelos de linguagem baseados em difusão discreta têm atraído amplo interesse devido ao seu potencial de oferecer geração mais rápida do que os modelos autoregressivos. Na prática, entretanto, eles exibem uma degradação acentuada da qualidade da amostra no regime de poucos passos, falhando em cumprir essa promessa. Aqui, mostramos que modelos de linguagem que utilizam desruídos contínuos baseados em fluxo podem superar a difusão discreta tanto em qualidade quanto em velocidade. Ao revisitar os fundamentos dos fluxos sobre modalidades discretas, construímos um modelo de linguagem baseado em fluxo (FLM) que realiza desruído Euclidiano sobre codificações one-hot de tokens. Demonstramos que o modelo pode ser treinado prevendo os dados limpos por meio de um objetivo de entropia cruzada, onde introduzimos uma simples reparametrização temporal que melhora significativamente a estabilidade do treinamento e a qualidade da geração. Ao destilar o FLM em seu mapa de fluxo associado, obtemos um modelo de linguagem de mapa de fluxo destilado (FMLM) capaz de geração em poucos passos. Nos conjuntos de dados linguísticos LM1B e OWT, o FLM atinge qualidade de geração equivalente aos modelos de difusão discreta de última geração. Com o FMLM, nossa abordagem supera modelos linguísticos recentes de poucos passos em todos os aspectos, com geração em um passo excedendo a qualidade de sua geração em 8 passos. Nosso trabalho questiona a hipótese amplamente difundida de que processos de difusão discretos são necessários para modelagem generativa sobre modalidades discretas, e abre caminho para a modelagem linguística baseada em fluxo acelerada em larga escala. O código está disponível em https://github.com/david3684/flm.

English

Language models based on discrete diffusion have attracted widespread interest for their potential to provide faster generation than autoregressive models. In practice, however, they exhibit a sharp degradation of sample quality in the few-step regime, failing to realize this promise. Here we show that language models leveraging flow-based continuous denoising can outperform discrete diffusion in both quality and speed. By revisiting the fundamentals of flows over discrete modalities, we build a flow-based language model (FLM) that performs Euclidean denoising over one-hot token encodings. We show that the model can be trained by predicting the clean data via a cross entropy objective, where we introduce a simple time reparameterization that greatly improves training stability and generation quality. By distilling FLM into its associated flow map, we obtain a distilled flow map language model (FMLM) capable of few-step generation. On the LM1B and OWT language datasets, FLM attains generation quality matching state-of-the-art discrete diffusion models. With FMLM, our approach outperforms recent few-step language models across the board, with one-step generation exceeding their 8-step quality. Our work calls into question the widely held hypothesis that discrete diffusion processes are necessary for generative modeling over discrete modalities, and paves the way toward accelerated flow-based language modeling at scale. Code is available at https://github.com/david3684/flm.

Modelagem de Linguagem em Um Único Passo por Meio de Desruídos Contínuos

One-step Language Modeling via Continuous Denoising

Resumo

Support