dParallel: Decodificación Paralela Aprendible para dLLMs
dParallel: Learnable Parallel Decoding for dLLMs
September 30, 2025
Autores: Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
cs.AI
Resumen
Los modelos de lenguaje de difusión a gran escala (dLLMs, por sus siglas en inglés) han captado recientemente una atención considerable dentro de la comunidad de investigación como una alternativa prometedora a la generación autoregresiva, ofreciendo predicción paralela de tokens y una menor latencia en la inferencia. Sin embargo, su potencial de decodificación paralela sigue siendo en gran parte inexplorado, ya que los modelos de código abierto existentes aún requieren casi tantos pasos de decodificación como la longitud del token para garantizar el rendimiento. Para abordar esto, presentamos dParallel, un método simple y efectivo que desbloquea el paralelismo inherente de los dLLMs para un muestreo rápido. Identificamos que el cuello de botella clave para la decodificación paralela surge de la convergencia secuencial de certeza para los tokens enmascarados. Basándonos en esta idea, introducimos el núcleo de nuestro enfoque: la destilación forzada de certeza, una estrategia de entrenamiento novedosa que destila el modelo para seguir sus trayectorias de muestreo originales mientras lo obliga a alcanzar una alta certeza en los tokens enmascarados de manera más rápida y en paralelo. Experimentos extensos en varios benchmarks demuestran que nuestro método puede reducir drásticamente el número de pasos de decodificación mientras mantiene el rendimiento. Cuando se aplica al modelo LLaDA-8B-Instruct, dParallel reduce los pasos de decodificación de 256 a 30 en GSM8K, logrando una aceleración de 8.5x sin degradación del rendimiento. En el benchmark MBPP, reduce los pasos de decodificación de 256 a 24, resultando en una aceleración de 10.5x mientras se mantiene la precisión. Nuestro código está disponible en https://github.com/czg1225/dParallel.
English
Diffusion large language models (dLLMs) have recently drawn considerable
attention within the research community as a promising alternative to
autoregressive generation, offering parallel token prediction and lower
inference latency. Yet, their parallel decoding potential remains largely
underexplored, as existing open-source models still require nearly token-length
decoding steps to ensure performance. To address this, we introduce dParallel,
a simple and effective method that unlocks the inherent parallelism of dLLMs
for fast sampling. We identify that the key bottleneck to parallel decoding
arises from the sequential certainty convergence for masked tokens. Building on
this insight, we introduce the core of our approach: certainty-forcing
distillation, a novel training strategy that distills the model to follow its
original sampling trajectories while enforcing it to achieve high certainty on
masked tokens more rapidly and in parallel. Extensive experiments across
various benchmarks demonstrate that our method can dramatically reduce the
number of decoding steps while maintaining performance. When applied to the
LLaDA-8B-Instruct model, dParallel reduces decoding steps from 256 to 30 on
GSM8K, achieving an 8.5x speedup without performance degradation. On the MBPP
benchmark, it cuts decoding steps from 256 to 24, resulting in a 10.5x speedup
while maintaining accuracy. Our code is available at
https://github.com/czg1225/dParallel