ParallelBench: Untersuchung der Kompromisse bei der parallelen Dekodierung in Diffusion LLMs
ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs
October 6, 2025
papers.authors: Wonjun Kang, Kevin Galim, Seunghyuk Oh, Minjae Lee, Yuchen Zeng, Shuibai Zhang, Coleman Hooper, Yuezhou Hu, Hyung Il Koo, Nam Ik Cho, Kangwook Lee
cs.AI
papers.abstract
Während die meisten autoregressiven LLMs (Large Language Models) auf eine sequenzielle Dekodierung beschränkt sind, haben Diffusions-LLMs (dLLMs) aufgrund ihres Potenzials, die Inferenz durch parallele Dekodierung erheblich zu beschleunigen, zunehmendes Interesse geweckt. Trotz dieses Versprechens führt die Annahme der bedingten Unabhängigkeit in dLLMs dazu, dass die parallele Dekodierung Token-Abhängigkeiten ignoriert, was unweigerlich die Generierungsqualität beeinträchtigt, wenn diese Abhängigkeiten stark ausgeprägt sind. Bisherige Arbeiten haben diese inhärenten Herausforderungen jedoch weitgehend übersehen, und Bewertungen auf Standard-Benchmarks (z. B. für Mathematik und Programmierung) reichen nicht aus, um die Qualitätsminderung durch parallele Dekodierung zu erfassen. Um diese Lücke zu schließen, bieten wir zunächst eine informationstheoretische Analyse der parallelen Dekodierung. Anschließend führen wir Fallstudien zu analytisch handhabbaren synthetischen Listenoperationen durch, sowohl aus der Perspektive der Datenverteilung als auch der Dekodierungsstrategie, und liefern quantitative Einblicke, die die grundlegenden Grenzen der parallelen Dekodierung aufzeigen. Aufbauend auf diesen Erkenntnissen schlagen wir ParallelBench vor, den ersten speziell für dLLMs entwickelten Benchmark, der realistische Aufgaben umfasst, die für Menschen und autoregressive LLMs trivial, für dLLMs unter paralleler Dekodierung jedoch außerordentlich herausfordernd sind. Mit ParallelBench analysieren wir systematisch sowohl dLLMs als auch autoregressive LLMs und zeigen, dass: (i) dLLMs unter paralleler Dekodierung in realen Szenarien erhebliche Qualitätseinbußen erleiden können und (ii) aktuelle parallele Dekodierungsstrategien Schwierigkeiten haben, ihren Grad der Parallelität an die Aufgabenkomplexität anzupassen, wodurch sie keine sinnvolle Beschleunigung ohne Qualitätseinbußen erreichen. Unsere Ergebnisse unterstreichen den dringenden Bedarf an innovativen Dekodierungsmethoden, die den aktuellen Kompromiss zwischen Geschwindigkeit und Qualität überwinden können. Wir veröffentlichen unseren Benchmark, um die Entwicklung wirklich effizienter dLLMs zu beschleunigen.
English
While most autoregressive LLMs are constrained to one-by-one decoding,
diffusion LLMs (dLLMs) have attracted growing interest for their potential to
dramatically accelerate inference through parallel decoding. Despite this
promise, the conditional independence assumption in dLLMs causes parallel
decoding to ignore token dependencies, inevitably degrading generation quality
when these dependencies are strong. However, existing works largely overlook
these inherent challenges, and evaluations on standard benchmarks (e.g., math
and coding) are not sufficient to capture the quality degradation caused by
parallel decoding. To address this gap, we first provide an
information-theoretic analysis of parallel decoding. We then conduct case
studies on analytically tractable synthetic list operations from both data
distribution and decoding strategy perspectives, offering quantitative insights
that highlight the fundamental limitations of parallel decoding. Building on
these insights, we propose ParallelBench, the first benchmark specifically
designed for dLLMs, featuring realistic tasks that are trivial for humans and
autoregressive LLMs yet exceptionally challenging for dLLMs under parallel
decoding. Using ParallelBench, we systematically analyze both dLLMs and
autoregressive LLMs, revealing that: (i) dLLMs under parallel decoding can
suffer dramatic quality degradation in real-world scenarios, and (ii) current
parallel decoding strategies struggle to adapt their degree of parallelism
based on task difficulty, thus failing to achieve meaningful speedup without
compromising quality. Our findings underscore the pressing need for innovative
decoding methods that can overcome the current speed-quality trade-off. We
release our benchmark to help accelerate the development of truly efficient
dLLMs.