ParallelBench: Inzicht in de Afwegingen van Parallel Decoderen in Diffusie-LLM's
ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs
October 6, 2025
Auteurs: Wonjun Kang, Kevin Galim, Seunghyuk Oh, Minjae Lee, Yuchen Zeng, Shuibai Zhang, Coleman Hooper, Yuezhou Hu, Hyung Il Koo, Nam Ik Cho, Kangwook Lee
cs.AI
Samenvatting
Hoewel de meeste autoregressieve LLM's beperkt zijn tot een voor een decodering,
hebben diffusie-LLM's (dLLM's) steeds meer aandacht getrokken vanwege hun potentieel om
inferentie aanzienlijk te versnellen door parallelle decodering. Ondanks deze belofte
leidt de aanname van conditionele onafhankelijkheid in dLLM's ertoe dat parallelle
decodering tokenafhankelijkheden negeert, wat onvermijdelijk de generatiekwaliteit
aantast wanneer deze afhankelijkheden sterk zijn. Bestaande werken gaan echter grotendeels
voorbij aan deze inherente uitdagingen, en evaluaties op standaardbenchmarks (bijv. wiskunde
en codering) zijn niet voldoende om de kwaliteitsvermindering veroorzaakt door parallelle
decodering vast te leggen. Om deze kloof te dichten, bieden we eerst een
informatietheoretische analyse van parallelle decodering. Vervolgens voeren we casestudies
uit op analytisch behandelbare synthetische lijstbewerkingen vanuit zowel het perspectief
van de dataverdeling als de decoderingstrategie, waarbij we kwantitatieve inzichten bieden
die de fundamentele beperkingen van parallelle decodering benadrukken. Op basis van deze
inzichten stellen we ParallelBench voor, de eerste benchmark die specifiek is ontworpen
voor dLLM's, met realistische taken die triviaal zijn voor mensen en autoregressieve LLM's,
maar uitzonderlijk uitdagend voor dLLM's onder parallelle decodering. Met behulp van
ParallelBench analyseren we systematisch zowel dLLM's als autoregressieve LLM's, waarbij
we aantonen dat: (i) dLLM's onder parallelle decodering dramatische kwaliteitsvermindering
kunnen ondervinden in realistische scenario's, en (ii) huidige parallelle decoderingstrategieën
moeite hebben om hun mate van parallellisme aan te passen op basis van taakmoeilijkheid,
waardoor ze er niet in slagen een betekenisvolle versnelling te bereiken zonder in te
leveren op kwaliteit. Onze bevindingen onderstrepen de dringende behoefte aan innovatieve
decoderingsmethoden die de huidige snelheid-kwaliteit trade-off kunnen overwinnen. We
maken onze benchmark beschikbaar om de ontwikkeling van echt efficiënte dLLM's te versnellen.
English
While most autoregressive LLMs are constrained to one-by-one decoding,
diffusion LLMs (dLLMs) have attracted growing interest for their potential to
dramatically accelerate inference through parallel decoding. Despite this
promise, the conditional independence assumption in dLLMs causes parallel
decoding to ignore token dependencies, inevitably degrading generation quality
when these dependencies are strong. However, existing works largely overlook
these inherent challenges, and evaluations on standard benchmarks (e.g., math
and coding) are not sufficient to capture the quality degradation caused by
parallel decoding. To address this gap, we first provide an
information-theoretic analysis of parallel decoding. We then conduct case
studies on analytically tractable synthetic list operations from both data
distribution and decoding strategy perspectives, offering quantitative insights
that highlight the fundamental limitations of parallel decoding. Building on
these insights, we propose ParallelBench, the first benchmark specifically
designed for dLLMs, featuring realistic tasks that are trivial for humans and
autoregressive LLMs yet exceptionally challenging for dLLMs under parallel
decoding. Using ParallelBench, we systematically analyze both dLLMs and
autoregressive LLMs, revealing that: (i) dLLMs under parallel decoding can
suffer dramatic quality degradation in real-world scenarios, and (ii) current
parallel decoding strategies struggle to adapt their degree of parallelism
based on task difficulty, thus failing to achieve meaningful speedup without
compromising quality. Our findings underscore the pressing need for innovative
decoding methods that can overcome the current speed-quality trade-off. We
release our benchmark to help accelerate the development of truly efficient
dLLMs.