Fast-dLLM v2: LLM Eficiente com Difusão em Blocos
Fast-dLLM v2: Efficient Block-Diffusion LLM
September 30, 2025
Autores: Chengyue Wu, Hao Zhang, Shuchen Xue, Shizhe Diao, Yonggan Fu, Zhijian Liu, Pavlo Molchanov, Ping Luo, Song Han, Enze Xie
cs.AI
Resumo
Modelos de linguagem autoregressivos (AR) de grande escala (LLMs) têm alcançado desempenho notável em uma ampla gama de tarefas de processamento de linguagem natural, mas sua decodificação sequencial inerente limita a eficiência da inferência. Neste trabalho, propomos o Fast-dLLM v2, um modelo de linguagem de difusão em blocos (dLLM) cuidadosamente projetado que adapta eficientemente modelos AR pré-treinados em dLLMs para geração paralela de texto, exigindo apenas aproximadamente 1 bilhão de tokens de ajuste fino. Isso representa uma redução de 500x nos dados de treinamento em comparação com LLMs de difusão com atenção completa, como o Dream (580 bilhões de tokens), enquanto preserva o desempenho do modelo original. Nossa abordagem introduz uma nova receita de treinamento que combina um mecanismo de difusão em blocos com uma máscara de atenção complementar, permitindo a modelagem bidirecional de contexto em blocos sem sacrificar os objetivos de treinamento AR. Para acelerar ainda mais a decodificação, projetamos um mecanismo de cache hierárquico: um cache em nível de bloco que armazena representações de contexto histórico entre blocos e um cache em sub-blocos que permite a geração paralela eficiente dentro de blocos parcialmente decodificados. Juntamente com nosso pipeline de decodificação paralela, o Fast-dLLM v2 alcança uma aceleração de até 2,5x em relação à decodificação AR padrão, sem comprometer a qualidade da geração. Experimentos extensos em diversos benchmarks demonstram que o Fast-dLLM v2 iguala ou supera as linhas de base AR em precisão, ao mesmo tempo em que oferece eficiência de ponta entre os dLLMs - marcando um passo significativo em direção à implantação prática de LLMs rápidos e precisos. O código e o modelo serão disponibilizados publicamente.
English
Autoregressive (AR) large language models (LLMs) have achieved remarkable
performance across a wide range of natural language tasks, yet their inherent
sequential decoding limits inference efficiency. In this work, we propose
Fast-dLLM v2, a carefully designed block diffusion language model (dLLM) that
efficiently adapts pretrained AR models into dLLMs for parallel text
generation, requiring only approximately 1B tokens of fine-tuning. This
represents a 500x reduction in training data compared to full-attention
diffusion LLMs such as Dream (580B tokens), while preserving the original
model's performance. Our approach introduces a novel training recipe that
combines a block diffusion mechanism with a complementary attention mask,
enabling blockwise bidirectional context modeling without sacrificing AR
training objectives. To further accelerate decoding, we design a hierarchical
caching mechanism: a block-level cache that stores historical context
representations across blocks, and a sub-block cache that enables efficient
parallel generation within partially decoded blocks. Coupled with our parallel
decoding pipeline, Fast-dLLM v2 achieves up to 2.5x speedup over standard AR
decoding without compromising generation quality. Extensive experiments across
diverse benchmarks demonstrate that Fast-dLLM v2 matches or surpasses AR
baselines in accuracy, while delivering state-of-the-art efficiency among dLLMs
- marking a significant step toward the practical deployment of fast and
accurate LLMs. Code and model will be publicly released.