Одношаговое языковое моделирование методом непрерывного шумоподавления

Аннотация

Языковые модели на основе дискретной диффузии привлекли широкий интерес благодаря своему потенциалу обеспечить более быструю генерацию по сравнению с авторегрессионными моделями. Однако на практике они демонстрируют резкое ухудшение качества сэмплов в режиме малого числа шагов, не оправдывая этих ожиданий. В данной работе мы показываем, что языковые модели, использующие непрерывное шумоподавление на основе потоков, могут превзойти дискретную диффузию как по качеству, так и по скорости. Возвращаясь к основам потоков для дискретных модальностей, мы строим потоковую языковую модель (Flow-based Language Model, FLM), которая выполняет евклидово шумоподавление над one-hot кодировками токенов. Мы показываем, что модель можно обучать, предсказывая очищенные данные с помощью перекрёстной энтропии, где мы вводим простую репараметризацию времени, которая значительно улучшает стабильность обучения и качество генерации. Дистиллируя FLM в её ассоциированное потоковое отображение, мы получаем дистиллированную потоковую модель языка (Distilled Flow Map Language Model, FMLM), способную к генерации за малое число шагов. На языковых наборах данных LM1B и OWT FLM достигает качества генерации, соответствующего современным моделям дискретной диффузии. С FMLM наш подход превосходит последние модели языка с малым числом шагов по всем параметрам, причём одношаговая генерация превышает их качество при 8 шагах. Наша работа ставит под сомнение широко распространённую гипотезу о необходимости дискретных диффузионных процессов для генеративного моделирования над дискретными модальностями и прокладывает путь к ускоренному потоковому моделированию языка в больших масштабах. Код доступен по адресу https://github.com/david3684/flm.

English

Language models based on discrete diffusion have attracted widespread interest for their potential to provide faster generation than autoregressive models. In practice, however, they exhibit a sharp degradation of sample quality in the few-step regime, failing to realize this promise. Here we show that language models leveraging flow-based continuous denoising can outperform discrete diffusion in both quality and speed. By revisiting the fundamentals of flows over discrete modalities, we build a flow-based language model (FLM) that performs Euclidean denoising over one-hot token encodings. We show that the model can be trained by predicting the clean data via a cross entropy objective, where we introduce a simple time reparameterization that greatly improves training stability and generation quality. By distilling FLM into its associated flow map, we obtain a distilled flow map language model (FMLM) capable of few-step generation. On the LM1B and OWT language datasets, FLM attains generation quality matching state-of-the-art discrete diffusion models. With FMLM, our approach outperforms recent few-step language models across the board, with one-step generation exceeding their 8-step quality. Our work calls into question the widely held hypothesis that discrete diffusion processes are necessary for generative modeling over discrete modalities, and paves the way toward accelerated flow-based language modeling at scale. Code is available at https://github.com/david3684/flm.

Одношаговое языковое моделирование методом непрерывного шумоподавления

One-step Language Modeling via Continuous Denoising

Аннотация

Support