ParallelBench : Comprendre les compromis du décodage parallèle dans les modèles de langage à diffusion
ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs
October 6, 2025
papers.authors: Wonjun Kang, Kevin Galim, Seunghyuk Oh, Minjae Lee, Yuchen Zeng, Shuibai Zhang, Coleman Hooper, Yuezhou Hu, Hyung Il Koo, Nam Ik Cho, Kangwook Lee
cs.AI
papers.abstract
Alors que la plupart des LLM autorégressifs sont contraints à un décodage séquentiel, les LLM à diffusion (dLLM) suscitent un intérêt croissant pour leur potentiel à accélérer considérablement l'inférence grâce au décodage parallèle. Malgré cette promesse, l'hypothèse d'indépendance conditionnelle dans les dLLM fait que le décodage parallèle ignore les dépendances entre les tokens, dégradant inévitablement la qualité de génération lorsque ces dépendances sont fortes. Cependant, les travaux existants négligent largement ces défis inhérents, et les évaluations sur des benchmarks standards (par exemple, en mathématiques et en codage) ne suffisent pas à capturer la dégradation de qualité causée par le décodage parallèle. Pour combler cette lacune, nous proposons d'abord une analyse informationnelle du décodage parallèle. Nous menons ensuite des études de cas sur des opérations de listes synthétiques analytiquement traitables, en examinant à la fois la distribution des données et les stratégies de décodage, offrant ainsi des insights quantitatifs qui mettent en lumière les limitations fondamentales du décodage parallèle. Sur la base de ces insights, nous proposons ParallelBench, le premier benchmark spécifiquement conçu pour les dLLM, comprenant des tâches réalistes qui sont triviales pour les humains et les LLM autorégressifs mais exceptionnellement difficiles pour les dLLM sous décodage parallèle. En utilisant ParallelBench, nous analysons systématiquement à la fois les dLLM et les LLM autorégressifs, révélant que : (i) les dLLM sous décodage parallèle peuvent subir une dégradation dramatique de la qualité dans des scénarios réels, et (ii) les stratégies actuelles de décodage parallèle peinent à adapter leur degré de parallélisme en fonction de la difficulté de la tâche, échouant ainsi à obtenir une accélération significative sans compromettre la qualité. Nos résultats soulignent le besoin pressant de méthodes de décodage innovantes capables de surmonter le compromis actuel entre vitesse et qualité. Nous publions notre benchmark pour contribuer à accélérer le développement de dLLM véritablement efficaces.
English
While most autoregressive LLMs are constrained to one-by-one decoding,
diffusion LLMs (dLLMs) have attracted growing interest for their potential to
dramatically accelerate inference through parallel decoding. Despite this
promise, the conditional independence assumption in dLLMs causes parallel
decoding to ignore token dependencies, inevitably degrading generation quality
when these dependencies are strong. However, existing works largely overlook
these inherent challenges, and evaluations on standard benchmarks (e.g., math
and coding) are not sufficient to capture the quality degradation caused by
parallel decoding. To address this gap, we first provide an
information-theoretic analysis of parallel decoding. We then conduct case
studies on analytically tractable synthetic list operations from both data
distribution and decoding strategy perspectives, offering quantitative insights
that highlight the fundamental limitations of parallel decoding. Building on
these insights, we propose ParallelBench, the first benchmark specifically
designed for dLLMs, featuring realistic tasks that are trivial for humans and
autoregressive LLMs yet exceptionally challenging for dLLMs under parallel
decoding. Using ParallelBench, we systematically analyze both dLLMs and
autoregressive LLMs, revealing that: (i) dLLMs under parallel decoding can
suffer dramatic quality degradation in real-world scenarios, and (ii) current
parallel decoding strategies struggle to adapt their degree of parallelism
based on task difficulty, thus failing to achieve meaningful speedup without
compromising quality. Our findings underscore the pressing need for innovative
decoding methods that can overcome the current speed-quality trade-off. We
release our benchmark to help accelerate the development of truly efficient
dLLMs.