Fast-dLLM v2: Modelo de Lenguaje de Gran Escala con Difusión en Bloques Eficiente
Fast-dLLM v2: Efficient Block-Diffusion LLM
September 30, 2025
Autores: Chengyue Wu, Hao Zhang, Shuchen Xue, Shizhe Diao, Yonggan Fu, Zhijian Liu, Pavlo Molchanov, Ping Luo, Song Han, Enze Xie
cs.AI
Resumen
Los modelos de lenguaje autoregresivos (AR) de gran escala (LLMs, por sus siglas en inglés) han logrado un rendimiento notable en una amplia gama de tareas de procesamiento de lenguaje natural, aunque su decodificación secuencial inherente limita la eficiencia de la inferencia. En este trabajo, proponemos Fast-dLLM v2, un modelo de lenguaje basado en difusión por bloques (dLLM) cuidadosamente diseñado que adapta eficientemente modelos AR preentrenados en dLLMs para la generación paralela de texto, requiriendo solo aproximadamente 1B de tokens de ajuste fino. Esto representa una reducción de 500x en los datos de entrenamiento en comparación con LLMs de difusión de atención completa como Dream (580B tokens), mientras se preserva el rendimiento del modelo original. Nuestro enfoque introduce una novedosa receta de entrenamiento que combina un mecanismo de difusión por bloques con una máscara de atención complementaria, permitiendo el modelado bidireccional de contexto por bloques sin sacrificar los objetivos de entrenamiento AR. Para acelerar aún más la decodificación, diseñamos un mecanismo de almacenamiento jerárquico: un caché a nivel de bloque que almacena representaciones de contexto histórico entre bloques, y un caché a nivel de sub-bloque que permite la generación paralela eficiente dentro de bloques parcialmente decodificados. Junto con nuestra canalización de decodificación paralela, Fast-dLLM v2 logra una aceleración de hasta 2.5x en comparación con la decodificación AR estándar sin comprometer la calidad de la generación. Experimentos extensos en diversos benchmarks demuestran que Fast-dLLM v2 iguala o supera a las líneas base AR en precisión, al tiempo que ofrece una eficiencia de vanguardia entre los dLLMs, marcando un paso significativo hacia la implementación práctica de LLMs rápidos y precisos. El código y el modelo se publicarán públicamente.
English
Autoregressive (AR) large language models (LLMs) have achieved remarkable
performance across a wide range of natural language tasks, yet their inherent
sequential decoding limits inference efficiency. In this work, we propose
Fast-dLLM v2, a carefully designed block diffusion language model (dLLM) that
efficiently adapts pretrained AR models into dLLMs for parallel text
generation, requiring only approximately 1B tokens of fine-tuning. This
represents a 500x reduction in training data compared to full-attention
diffusion LLMs such as Dream (580B tokens), while preserving the original
model's performance. Our approach introduces a novel training recipe that
combines a block diffusion mechanism with a complementary attention mask,
enabling blockwise bidirectional context modeling without sacrificing AR
training objectives. To further accelerate decoding, we design a hierarchical
caching mechanism: a block-level cache that stores historical context
representations across blocks, and a sub-block cache that enables efficient
parallel generation within partially decoded blocks. Coupled with our parallel
decoding pipeline, Fast-dLLM v2 achieves up to 2.5x speedup over standard AR
decoding without compromising generation quality. Extensive experiments across
diverse benchmarks demonstrate that Fast-dLLM v2 matches or surpasses AR
baselines in accuracy, while delivering state-of-the-art efficiency among dLLMs
- marking a significant step toward the practical deployment of fast and
accurate LLMs. Code and model will be publicly released.