ChatPaper.aiChatPaper

Одношаговое языковое моделирование методом непрерывного шумоподавления

One-step Language Modeling via Continuous Denoising

February 18, 2026
Авторы: Chanhyuk Lee, Jaehoon Yoo, Manan Agarwal, Sheel Shah, Jerry Huang, Aditi Raghunathan, Seunghoon Hong, Nicholas M. Boffi, Jinwoo Kim
cs.AI

Аннотация

Языковые модели на основе дискретной диффузии привлекли широкий интерес благодаря своему потенциалу обеспечить более быструю генерацию по сравнению с авторегрессионными моделями. Однако на практике они демонстрируют резкое ухудшение качества сэмплов в режиме малого числа шагов, не оправдывая этих ожиданий. В данной работе мы показываем, что языковые модели, использующие непрерывное шумоподавление на основе потоков, могут превзойти дискретную диффузию как по качеству, так и по скорости. Возвращаясь к основам потоков для дискретных модальностей, мы строим потоковую языковую модель (Flow-based Language Model, FLM), которая выполняет евклидово шумоподавление над one-hot кодировками токенов. Мы показываем, что модель можно обучать, предсказывая очищенные данные с помощью перекрёстной энтропии, где мы вводим простую репараметризацию времени, которая значительно улучшает стабильность обучения и качество генерации. Дистиллируя FLM в её ассоциированное потоковое отображение, мы получаем дистиллированную потоковую модель языка (Distilled Flow Map Language Model, FMLM), способную к генерации за малое число шагов. На языковых наборах данных LM1B и OWT FLM достигает качества генерации, соответствующего современным моделям дискретной диффузии. С FMLM наш подход превосходит последние модели языка с малым числом шагов по всем параметрам, причём одношаговая генерация превышает их качество при 8 шагах. Наша работа ставит под сомнение широко распространённую гипотезу о необходимости дискретных диффузионных процессов для генеративного моделирования над дискретными модальностями и прокладывает путь к ускоренному потоковому моделированию языка в больших масштабах. Код доступен по адресу https://github.com/david3684/flm.
English
Language models based on discrete diffusion have attracted widespread interest for their potential to provide faster generation than autoregressive models. In practice, however, they exhibit a sharp degradation of sample quality in the few-step regime, failing to realize this promise. Here we show that language models leveraging flow-based continuous denoising can outperform discrete diffusion in both quality and speed. By revisiting the fundamentals of flows over discrete modalities, we build a flow-based language model (FLM) that performs Euclidean denoising over one-hot token encodings. We show that the model can be trained by predicting the clean data via a cross entropy objective, where we introduce a simple time reparameterization that greatly improves training stability and generation quality. By distilling FLM into its associated flow map, we obtain a distilled flow map language model (FMLM) capable of few-step generation. On the LM1B and OWT language datasets, FLM attains generation quality matching state-of-the-art discrete diffusion models. With FMLM, our approach outperforms recent few-step language models across the board, with one-step generation exceeding their 8-step quality. Our work calls into question the widely held hypothesis that discrete diffusion processes are necessary for generative modeling over discrete modalities, and paves the way toward accelerated flow-based language modeling at scale. Code is available at https://github.com/david3684/flm.
PDF42March 28, 2026