ChatPaper.aiChatPaper

Fast-dLLM v2: Modello Linguistico Efficiente con Diffusione a Blocchi

Fast-dLLM v2: Efficient Block-Diffusion LLM

September 30, 2025
Autori: Chengyue Wu, Hao Zhang, Shuchen Xue, Shizhe Diao, Yonggan Fu, Zhijian Liu, Pavlo Molchanov, Ping Luo, Song Han, Enze Xie
cs.AI

Abstract

I modelli linguistici autoregressivi (AR) di grandi dimensioni (LLM) hanno ottenuto prestazioni notevoli in un'ampia gamma di attività di elaborazione del linguaggio naturale, tuttavia il loro processo di decodifica sequenziale intrinseco limita l'efficienza dell'inferenza. In questo lavoro, proponiamo Fast-dLLM v2, un modello linguistico a diffusione a blocchi (dLLM) progettato con cura che adatta in modo efficiente i modelli AR pre-addestrati in dLLM per la generazione parallela di testo, richiedendo solo circa 1 miliardo di token di fine-tuning. Ciò rappresenta una riduzione di 500 volte nei dati di addestramento rispetto ai LLM a diffusione con attenzione completa come Dream (580 miliardi di token), preservando al contempo le prestazioni del modello originale. Il nostro approccio introduce una nuova ricetta di addestramento che combina un meccanismo di diffusione a blocchi con una maschera di attenzione complementare, consentendo la modellizzazione bidirezionale del contesto a blocchi senza sacrificare gli obiettivi di addestramento AR. Per accelerare ulteriormente la decodifica, progettiamo un meccanismo di memorizzazione gerarchica: una cache a livello di blocco che memorizza le rappresentazioni del contesto storico tra i blocchi e una cache a livello di sotto-blocco che consente la generazione parallela efficiente all'interno di blocchi parzialmente decodificati. Insieme alla nostra pipeline di decodifica parallela, Fast-dLLM v2 raggiunge un incremento di velocità fino a 2,5 volte rispetto alla decodifica AR standard senza compromettere la qualità della generazione. Esperimenti estesi su diversi benchmark dimostrano che Fast-dLLM v2 eguaglia o supera i baseline AR in termini di accuratezza, offrendo al contempo un'efficienza all'avanguardia tra i dLLM, segnando un passo significativo verso il dispiegamento pratico di LLM veloci e precisi. Codice e modello saranno rilasciati pubblicamente.
English
Autoregressive (AR) large language models (LLMs) have achieved remarkable performance across a wide range of natural language tasks, yet their inherent sequential decoding limits inference efficiency. In this work, we propose Fast-dLLM v2, a carefully designed block diffusion language model (dLLM) that efficiently adapts pretrained AR models into dLLMs for parallel text generation, requiring only approximately 1B tokens of fine-tuning. This represents a 500x reduction in training data compared to full-attention diffusion LLMs such as Dream (580B tokens), while preserving the original model's performance. Our approach introduces a novel training recipe that combines a block diffusion mechanism with a complementary attention mask, enabling blockwise bidirectional context modeling without sacrificing AR training objectives. To further accelerate decoding, we design a hierarchical caching mechanism: a block-level cache that stores historical context representations across blocks, and a sub-block cache that enables efficient parallel generation within partially decoded blocks. Coupled with our parallel decoding pipeline, Fast-dLLM v2 achieves up to 2.5x speedup over standard AR decoding without compromising generation quality. Extensive experiments across diverse benchmarks demonstrate that Fast-dLLM v2 matches or surpasses AR baselines in accuracy, while delivering state-of-the-art efficiency among dLLMs - marking a significant step toward the practical deployment of fast and accurate LLMs. Code and model will be publicly released.
PDF487October 8, 2025