ChatPaper.aiChatPaper

ParallelBench: Comprendiendo las compensaciones de la decodificación paralela en modelos de lenguaje de difusión (Diffusion LLMs)

ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs

October 6, 2025
Autores: Wonjun Kang, Kevin Galim, Seunghyuk Oh, Minjae Lee, Yuchen Zeng, Shuibai Zhang, Coleman Hooper, Yuezhou Hu, Hyung Il Koo, Nam Ik Cho, Kangwook Lee
cs.AI

Resumen

Mientras que la mayoría de los LLM autorregresivos están limitados a la decodificación token por token, los LLM de difusión (dLLM) han atraído un interés creciente por su potencial para acelerar drásticamente la inferencia mediante la decodificación paralela. A pesar de esta promesa, el supuesto de independencia condicional en los dLLM hace que la decodificación paralela ignore las dependencias entre tokens, lo que inevitablemente degrada la calidad de la generación cuando estas dependencias son fuertes. Sin embargo, los trabajos existentes en gran medida pasan por alto estos desafíos inherentes, y las evaluaciones en benchmarks estándar (por ejemplo, matemáticas y codificación) no son suficientes para capturar la degradación de calidad causada por la decodificación paralela. Para abordar esta brecha, primero proporcionamos un análisis teórico de la información sobre la decodificación paralela. Luego, realizamos estudios de casos en operaciones sintéticas de listas analíticamente tratables desde perspectivas tanto de distribución de datos como de estrategias de decodificación, ofreciendo insights cuantitativos que resaltan las limitaciones fundamentales de la decodificación paralela. Basándonos en estos insights, proponemos ParallelBench, el primer benchmark diseñado específicamente para dLLM, que incluye tareas realistas que son triviales para humanos y LLM autorregresivos, pero excepcionalmente desafiantes para dLLM bajo decodificación paralela. Utilizando ParallelBench, analizamos sistemáticamente tanto dLLM como LLM autorregresivos, revelando que: (i) los dLLM bajo decodificación paralela pueden sufrir una degradación dramática de calidad en escenarios del mundo real, y (ii) las estrategias actuales de decodificación paralela luchan por adaptar su grado de paralelismo según la dificultad de la tarea, lo que les impide lograr una aceleración significativa sin comprometer la calidad. Nuestros hallazgos subrayan la necesidad urgente de métodos de decodificación innovadores que puedan superar el actual compromiso entre velocidad y calidad. Publicamos nuestro benchmark para ayudar a acelerar el desarrollo de dLLM verdaderamente eficientes.
English
While most autoregressive LLMs are constrained to one-by-one decoding, diffusion LLMs (dLLMs) have attracted growing interest for their potential to dramatically accelerate inference through parallel decoding. Despite this promise, the conditional independence assumption in dLLMs causes parallel decoding to ignore token dependencies, inevitably degrading generation quality when these dependencies are strong. However, existing works largely overlook these inherent challenges, and evaluations on standard benchmarks (e.g., math and coding) are not sufficient to capture the quality degradation caused by parallel decoding. To address this gap, we first provide an information-theoretic analysis of parallel decoding. We then conduct case studies on analytically tractable synthetic list operations from both data distribution and decoding strategy perspectives, offering quantitative insights that highlight the fundamental limitations of parallel decoding. Building on these insights, we propose ParallelBench, the first benchmark specifically designed for dLLMs, featuring realistic tasks that are trivial for humans and autoregressive LLMs yet exceptionally challenging for dLLMs under parallel decoding. Using ParallelBench, we systematically analyze both dLLMs and autoregressive LLMs, revealing that: (i) dLLMs under parallel decoding can suffer dramatic quality degradation in real-world scenarios, and (ii) current parallel decoding strategies struggle to adapt their degree of parallelism based on task difficulty, thus failing to achieve meaningful speedup without compromising quality. Our findings underscore the pressing need for innovative decoding methods that can overcome the current speed-quality trade-off. We release our benchmark to help accelerate the development of truly efficient dLLMs.
PDF262October 16, 2025