ChatPaper.aiChatPaper

Los LLM de difusión pueden realizar inferencia más rápida que AR mediante difusión discreta Forzando

Diffusion LLMs Can Do Faster-Than-AR Inference via Discrete Diffusion Forcing

August 8, 2025
Autores: Xu Wang, Chenkai Xu, Yijie Jin, Jiachun Jin, Hao Zhang, Zhijie Deng
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala basados en Difusión (dLLMs, por sus siglas en inglés) han surgido como una alternativa prometedora a los Modelos de Lenguaje de Gran Escala Autoregresivos (AR LLMs) para la generación de texto, con el potencial de decodificar múltiples tokens en una sola iteración. Sin embargo, ninguno de los dLLMs de código abierto existentes ha logrado una velocidad de inferencia superior a la de los AR LLMs de tamaño similar. Este artículo supera esta barrera basándose en una estrategia simple y efectiva denominada forzado de difusión discreta (D2F, por sus siglas en inglés). D2F dota a los dLLMs de dos capacidades clave: (1) generación autoregresiva por bloques para permitir la utilización de la caché KV; (2) predicción de tokens siguientes sin requerir la finalización de bloques previos para la decodificación paralela entre bloques. De esta manera, los dLLMs convencionales se transforman en un paradigma híbrido AR-difusión para una inferencia eficiente. D2F puede implementarse mediante un proceso de destilación asimétrica basado en dLLMs preentrenados. Además, proponemos un algoritmo de decodificación paralela en pipeline, que permite un equilibrio entre eficiencia y eficacia. Empíricamente, los dLLMs con D2F logran una velocidad de inferencia más de 2.5 veces superior a la de LLaMA3 y Qwen2.5 en GSM8K. En comparación con dLLMs convencionales como LLaDA y Dream, la aceleración puede superar las 50 veces mientras se mantiene una calidad de salida comparable. El código está disponible en https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
English
Diffusion Large Language Models (dLLMs) have emerged as a promising alternative to autoregressive (AR) LLMs for text generation, with the potential to decode multiple tokens in a single iteration. However, none of the existing open-source dLLMs have achieved superior inference speed over AR LLMs of similar size. This paper breaks this barrier based on a simple and effective strategy named discrete diffusion forcing (D2F). D2F equips dLLMs with two key capabilities: (1) block-wise autoregressive generation to enable KV cache utilization; (2) prediction of following tokens without requiring completion of prior blocks for inter-block parallel decoding. In this way, the vanilla dLLMs are refurbished into an AR-diffusion hybrid paradigm for efficient inference. D2F can be implemented with an asymmetric distillation process based on pre-trained dLLMs. We further propose a pipelined parallel decoding algorithm, which enables a trade-off between efficiency and efficacy. Empirically, D2F dLLMs achieve more than 2.5times inference speed than LLaMA3 and Qwen2.5 on GSM8K. Compared to vanilla dLLMs like LLaDA and Dream, the acceleration can be more than 50times while maintaining comparable output quality. The code is available at https://github.com/zhijie-group/Discrete-Diffusion-Forcing.
PDF223August 14, 2025