ChatPaper.aiChatPaper

Fast-dLLM v2: Эффективная блочно-диффузионная языковая модель

Fast-dLLM v2: Efficient Block-Diffusion LLM

September 30, 2025
Авторы: Chengyue Wu, Hao Zhang, Shuchen Xue, Shizhe Diao, Yonggan Fu, Zhijian Liu, Pavlo Molchanov, Ping Luo, Song Han, Enze Xie
cs.AI

Аннотация

Авторегрессивные (AR) большие языковые модели (LLM) достигли выдающихся результатов в широком спектре задач обработки естественного языка, однако их присущее последовательное декодирование ограничивает эффективность вывода. В данной работе мы представляем Fast-dLLM v2 — тщательно разработанную блочную диффузионную языковую модель (dLLM), которая эффективно адаптирует предобученные AR-модели для параллельной генерации текста, требуя всего около 1 млрд токенов для тонкой настройки. Это представляет собой 500-кратное сокращение объема обучающих данных по сравнению с диффузионными LLM с полным вниманием, такими как Dream (580 млрд токенов), при сохранении производительности исходной модели. Наш подход включает новый метод обучения, который сочетает механизм блочной диффузии с дополнительной маской внимания, позволяя моделировать двунаправленный контекст по блокам без ущерба для целей AR-обучения. Для дальнейшего ускорения декодирования мы разработали иерархический механизм кэширования: кэш на уровне блоков, который сохраняет представления исторического контекста между блоками, и кэш на уровне подблоков, обеспечивающий эффективную параллельную генерацию внутри частично декодированных блоков. В сочетании с нашим конвейером параллельного декодирования Fast-dLLM v2 достигает ускорения до 2,5 раз по сравнению со стандартным AR-декодированием без ущерба для качества генерации. Многочисленные эксперименты на различных бенчмарках демонстрируют, что Fast-dLLM v2 соответствует или превосходит базовые AR-модели по точности, обеспечивая при этом передовую эффективность среди dLLM — что представляет собой значительный шаг к практическому внедрению быстрых и точных LLM. Код и модель будут опубликованы в открытом доступе.
English
Autoregressive (AR) large language models (LLMs) have achieved remarkable performance across a wide range of natural language tasks, yet their inherent sequential decoding limits inference efficiency. In this work, we propose Fast-dLLM v2, a carefully designed block diffusion language model (dLLM) that efficiently adapts pretrained AR models into dLLMs for parallel text generation, requiring only approximately 1B tokens of fine-tuning. This represents a 500x reduction in training data compared to full-attention diffusion LLMs such as Dream (580B tokens), while preserving the original model's performance. Our approach introduces a novel training recipe that combines a block diffusion mechanism with a complementary attention mask, enabling blockwise bidirectional context modeling without sacrificing AR training objectives. To further accelerate decoding, we design a hierarchical caching mechanism: a block-level cache that stores historical context representations across blocks, and a sub-block cache that enables efficient parallel generation within partially decoded blocks. Coupled with our parallel decoding pipeline, Fast-dLLM v2 achieves up to 2.5x speedup over standard AR decoding without compromising generation quality. Extensive experiments across diverse benchmarks demonstrate that Fast-dLLM v2 matches or surpasses AR baselines in accuracy, while delivering state-of-the-art efficiency among dLLMs - marking a significant step toward the practical deployment of fast and accurate LLMs. Code and model will be publicly released.
PDF447October 8, 2025