Fast-dLLM v2: Efficiënte Block-Diffusie LLM
Fast-dLLM v2: Efficient Block-Diffusion LLM
September 30, 2025
Auteurs: Chengyue Wu, Hao Zhang, Shuchen Xue, Shizhe Diao, Yonggan Fu, Zhijian Liu, Pavlo Molchanov, Ping Luo, Song Han, Enze Xie
cs.AI
Samenvatting
Autoregressieve (AR) grote taalmmodellen (LLMs) hebben opmerkelijke prestaties geleverd op een breed scala aan natuurlijke taal taken, maar hun inherente sequentiële decodering beperkt de inferentie-efficiëntie. In dit werk stellen we Fast-dLLM v2 voor, een zorgvuldig ontworpen block diffusion taalmodel (dLLM) dat vooraf getrainde AR-modellen efficiënt aanpast naar dLLMs voor parallelle tekstgeneratie, waarbij slechts ongeveer 1B tokens van fine-tuning nodig zijn. Dit vertegenwoordigt een 500x reductie in trainingsdata vergeleken met full-attention diffusion LLMs zoals Dream (580B tokens), terwijl de prestaties van het oorspronkelijke model behouden blijven. Onze aanpak introduceert een nieuw trainingsrecept dat een block diffusion mechanisme combineert met een complementair aandachtmasker, waardoor blockgewijze bidirectionele contextmodellering mogelijk wordt zonder de AR-trainingsdoelen op te offeren. Om het decoderen verder te versnellen, ontwerpen we een hiërarchisch cachingmechanisme: een block-level cache die historische contextrepresentaties over blokken opslaat, en een sub-block cache die efficiënte parallelle generatie binnen gedeeltelijk gedecodeerde blokken mogelijk maakt. In combinatie met onze parallelle decoderingpipeline bereikt Fast-dLLM v2 een versnelling tot 2.5x ten opzichte van standaard AR-decodering zonder in te leveren op generatiekwaliteit. Uitgebreide experimenten over diverse benchmarks tonen aan dat Fast-dLLM v2 de AR-baselines evenaart of overtreft in nauwkeurigheid, terwijl het state-of-the-art efficiëntie biedt onder dLLMs - wat een significante stap markeert naar de praktische inzet van snelle en nauwkeurige LLMs. Code en model zullen openbaar worden vrijgegeven.
English
Autoregressive (AR) large language models (LLMs) have achieved remarkable
performance across a wide range of natural language tasks, yet their inherent
sequential decoding limits inference efficiency. In this work, we propose
Fast-dLLM v2, a carefully designed block diffusion language model (dLLM) that
efficiently adapts pretrained AR models into dLLMs for parallel text
generation, requiring only approximately 1B tokens of fine-tuning. This
represents a 500x reduction in training data compared to full-attention
diffusion LLMs such as Dream (580B tokens), while preserving the original
model's performance. Our approach introduces a novel training recipe that
combines a block diffusion mechanism with a complementary attention mask,
enabling blockwise bidirectional context modeling without sacrificing AR
training objectives. To further accelerate decoding, we design a hierarchical
caching mechanism: a block-level cache that stores historical context
representations across blocks, and a sub-block cache that enables efficient
parallel generation within partially decoded blocks. Coupled with our parallel
decoding pipeline, Fast-dLLM v2 achieves up to 2.5x speedup over standard AR
decoding without compromising generation quality. Extensive experiments across
diverse benchmarks demonstrate that Fast-dLLM v2 matches or surpasses AR
baselines in accuracy, while delivering state-of-the-art efficiency among dLLMs
- marking a significant step toward the practical deployment of fast and
accurate LLMs. Code and model will be publicly released.