LoPA: Escalado de la Inferencia de dLLM mediante Decodificación Paralela Anticipada
LoPA: Scaling dLLM Inference via Lookahead Parallel Decoding
December 18, 2025
Autores: Chenkai Xu, Yijie Jin, Jiajun Li, Yi Tu, Guoping Long, Dandan Tu, Mingcong Song, Hongjie Si, Tianqi Hou, Junchi Yan, Zhijie Deng
cs.AI
Resumen
Los Modelos de Lenguaje Grandes de Difusión (dLLMs) han demostrado un potencial significativo para la inferencia de alta velocidad. Sin embargo, las estrategias actuales de decodificación basadas en confianza están limitadas por un paralelismo reducido, logrando típicamente solo 1-3 tokens por pasada hacia adelante (TPF, por sus siglas en inglés). En este trabajo, identificamos que el grado de paralelismo durante la inferencia de los dLLMs es altamente sensible al Orden de Rellenado de Tokens (TFO). Posteriormente, presentamos LoPA (Lookahead PArallel Decoding), un algoritmo plug-and-play que no requiere entrenamiento, para identificar un TFO superior y, por lo tanto, acelerar la inferencia. LoPA explora concurrentemente distintos TFO candidatos mediante ramas paralelas y selecciona aquel con mayor potencial de paralelismo futuro basándose en la confianza de cada rama. Aplicamos LoPA al modelo de última generación D2F y observamos una mejora sustancial en la eficiencia de decodificación. Notablemente, LoPA incrementa el TPF de D2F-Dream a 10.1 en GSM8K manteniendo un rendimiento superior al baseline Dream. Además, para facilitar este grado de paralelismo sin precedentes, desarrollamos un sistema de inferencia especializado multi-dispositivo que presenta Paralelismo de Ramas (BP), el cual alcanza un rendimiento de 1073.9 tokens por segundo para una sola muestra en un despliegue multi-GPU. El código está disponible en https://github.com/zhijie-group/LoPA.
English
Diffusion Large Language Models (dLLMs) have demonstrated significant potential for high-speed inference. However, current confidence-driven decoding strategies are constrained by limited parallelism, typically achieving only 1--3 tokens per forward pass (TPF). In this work, we identify that the degree of parallelism during dLLM inference is highly sensitive to the Token Filling Order (TFO). Then, we introduce Lookahead PArallel Decoding LoPA, a training-free, plug-and-play algorithm, to identify a superior TFO and hence accelerate inference. LoPA concurrently explores distinct candidate TFOs via parallel branches, and selects the one with the highest potential for future parallelism based on branch confidence. We apply LoPA to the state-of-the-art D2F model and observe a substantial enhancement in decoding efficiency. Notably, LoPA increases the TPF of D2F-Dream to 10.1 on the GSM8K while maintaining performance superior to the Dream baseline. Furthermore, to facilitate this unprecedented degree of parallelism, we develop a specialized multi-device inference system featuring Branch Parallelism (BP), which achieves a single-sample throughput of 1073.9 tokens per second under multi-GPU deployment. The code is available at https://github.com/zhijie-group/LoPA.