Fast-dLLM v2: Effiziente Block-Diffusion LLM
Fast-dLLM v2: Efficient Block-Diffusion LLM
September 30, 2025
papers.authors: Chengyue Wu, Hao Zhang, Shuchen Xue, Shizhe Diao, Yonggan Fu, Zhijian Liu, Pavlo Molchanov, Ping Luo, Song Han, Enze Xie
cs.AI
papers.abstract
Autoregressive (AR) große Sprachmodelle (LLMs) haben bemerkenswerte Leistungen in einer Vielzahl von natürlichen Sprachaufgaben erzielt, doch ihre inhärente sequenzielle Dekodierung begrenzt die Inferenzeffizienz. In dieser Arbeit stellen wir Fast-dLLM v2 vor, ein sorgfältig entworfenes Block-Diffusions-Sprachmodell (dLLM), das vortrainierte AR-Modelle effizient in dLLMs für parallele Textgenerierung anpasst und dabei nur etwa 1B Token an Feinabstimmung erfordert. Dies stellt eine 500-fache Reduktion der Trainingsdaten im Vergleich zu vollständig aufmerksamkeitsbasierten Diffusions-LLMs wie Dream (580B Token) dar, während die Leistung des ursprünglichen Modells erhalten bleibt. Unser Ansatz führt ein neuartiges Trainingsrezept ein, das einen Block-Diffusions-Mechanismus mit einer komplementären Aufmerksamkeitsmaske kombiniert und so eine blockweise bidirektionale Kontextmodellierung ermöglicht, ohne die AR-Trainingsziele zu opfern. Um die Dekodierung weiter zu beschleunigen, entwerfen wir einen hierarchischen Caching-Mechanismus: einen Block-Level-Cache, der historische Kontextrepräsentationen über Blöcke hinweg speichert, und einen Sub-Block-Cache, der eine effiziente parallele Generierung innerhalb teilweise dekodierter Blöcke ermöglicht. In Kombination mit unserer parallelen Dekodierungspipeline erreicht Fast-dLLM v2 eine bis zu 2,5-fache Beschleunigung gegenüber der standardmäßigen AR-Dekodierung, ohne die Generierungsqualität zu beeinträchtigen. Umfangreiche Experimente über diverse Benchmarks hinweg zeigen, dass Fast-dLLM v2 die AR-Baselines in der Genauigkeit erreicht oder übertrifft, während es eine state-of-the-art Effizienz unter dLLMs liefert – ein bedeutender Schritt hin zur praktischen Einsatzfähigkeit schneller und präziser LLMs. Code und Modell werden öffentlich zugänglich gemacht.
English
Autoregressive (AR) large language models (LLMs) have achieved remarkable
performance across a wide range of natural language tasks, yet their inherent
sequential decoding limits inference efficiency. In this work, we propose
Fast-dLLM v2, a carefully designed block diffusion language model (dLLM) that
efficiently adapts pretrained AR models into dLLMs for parallel text
generation, requiring only approximately 1B tokens of fine-tuning. This
represents a 500x reduction in training data compared to full-attention
diffusion LLMs such as Dream (580B tokens), while preserving the original
model's performance. Our approach introduces a novel training recipe that
combines a block diffusion mechanism with a complementary attention mask,
enabling blockwise bidirectional context modeling without sacrificing AR
training objectives. To further accelerate decoding, we design a hierarchical
caching mechanism: a block-level cache that stores historical context
representations across blocks, and a sub-block cache that enables efficient
parallel generation within partially decoded blocks. Coupled with our parallel
decoding pipeline, Fast-dLLM v2 achieves up to 2.5x speedup over standard AR
decoding without compromising generation quality. Extensive experiments across
diverse benchmarks demonstrate that Fast-dLLM v2 matches or surpasses AR
baselines in accuracy, while delivering state-of-the-art efficiency among dLLMs
- marking a significant step toward the practical deployment of fast and
accurate LLMs. Code and model will be publicly released.