ParallelBench: Inzicht in de Afwegingen van Parallel Decoderen in Diffusie-LLM's

Samenvatting

Hoewel de meeste autoregressieve LLM's beperkt zijn tot een voor een decodering, hebben diffusie-LLM's (dLLM's) steeds meer aandacht getrokken vanwege hun potentieel om inferentie aanzienlijk te versnellen door parallelle decodering. Ondanks deze belofte leidt de aanname van conditionele onafhankelijkheid in dLLM's ertoe dat parallelle decodering tokenafhankelijkheden negeert, wat onvermijdelijk de generatiekwaliteit aantast wanneer deze afhankelijkheden sterk zijn. Bestaande werken gaan echter grotendeels voorbij aan deze inherente uitdagingen, en evaluaties op standaardbenchmarks (bijv. wiskunde en codering) zijn niet voldoende om de kwaliteitsvermindering veroorzaakt door parallelle decodering vast te leggen. Om deze kloof te dichten, bieden we eerst een informatietheoretische analyse van parallelle decodering. Vervolgens voeren we casestudies uit op analytisch behandelbare synthetische lijstbewerkingen vanuit zowel het perspectief van de dataverdeling als de decoderingstrategie, waarbij we kwantitatieve inzichten bieden die de fundamentele beperkingen van parallelle decodering benadrukken. Op basis van deze inzichten stellen we ParallelBench voor, de eerste benchmark die specifiek is ontworpen voor dLLM's, met realistische taken die triviaal zijn voor mensen en autoregressieve LLM's, maar uitzonderlijk uitdagend voor dLLM's onder parallelle decodering. Met behulp van ParallelBench analyseren we systematisch zowel dLLM's als autoregressieve LLM's, waarbij we aantonen dat: (i) dLLM's onder parallelle decodering dramatische kwaliteitsvermindering kunnen ondervinden in realistische scenario's, en (ii) huidige parallelle decoderingstrategieën moeite hebben om hun mate van parallellisme aan te passen op basis van taakmoeilijkheid, waardoor ze er niet in slagen een betekenisvolle versnelling te bereiken zonder in te leveren op kwaliteit. Onze bevindingen onderstrepen de dringende behoefte aan innovatieve decoderingsmethoden die de huidige snelheid-kwaliteit trade-off kunnen overwinnen. We maken onze benchmark beschikbaar om de ontwikkeling van echt efficiënte dLLM's te versnellen.

English

While most autoregressive LLMs are constrained to one-by-one decoding, diffusion LLMs (dLLMs) have attracted growing interest for their potential to dramatically accelerate inference through parallel decoding. Despite this promise, the conditional independence assumption in dLLMs causes parallel decoding to ignore token dependencies, inevitably degrading generation quality when these dependencies are strong. However, existing works largely overlook these inherent challenges, and evaluations on standard benchmarks (e.g., math and coding) are not sufficient to capture the quality degradation caused by parallel decoding. To address this gap, we first provide an information-theoretic analysis of parallel decoding. We then conduct case studies on analytically tractable synthetic list operations from both data distribution and decoding strategy perspectives, offering quantitative insights that highlight the fundamental limitations of parallel decoding. Building on these insights, we propose ParallelBench, the first benchmark specifically designed for dLLMs, featuring realistic tasks that are trivial for humans and autoregressive LLMs yet exceptionally challenging for dLLMs under parallel decoding. Using ParallelBench, we systematically analyze both dLLMs and autoregressive LLMs, revealing that: (i) dLLMs under parallel decoding can suffer dramatic quality degradation in real-world scenarios, and (ii) current parallel decoding strategies struggle to adapt their degree of parallelism based on task difficulty, thus failing to achieve meaningful speedup without compromising quality. Our findings underscore the pressing need for innovative decoding methods that can overcome the current speed-quality trade-off. We release our benchmark to help accelerate the development of truly efficient dLLMs.

ParallelBench: Inzicht in de Afwegingen van Parallel Decoderen in Diffusie-LLM's

ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs

Samenvatting

Support