ParallelBench: Comprendere i compromessi del decoding parallelo nei Diffusion LLM
ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs
October 6, 2025
Autori: Wonjun Kang, Kevin Galim, Seunghyuk Oh, Minjae Lee, Yuchen Zeng, Shuibai Zhang, Coleman Hooper, Yuezhou Hu, Hyung Il Koo, Nam Ik Cho, Kangwook Lee
cs.AI
Abstract
Mentre la maggior parte dei modelli linguistici autoregressivi (LLM) è vincolata a un decoding sequenziale, i modelli linguistici basati su diffusione (dLLM) hanno attirato un interesse crescente per il loro potenziale di accelerare drasticamente l'inferenza attraverso il decoding parallelo. Nonostante questa promessa, l'assunzione di indipendenza condizionale nei dLLM fa sì che il decoding parallelo ignori le dipendenze tra i token, degradando inevitabilmente la qualità della generazione quando queste dipendenze sono forti. Tuttavia, i lavori esistenti trascurano ampiamente queste sfide intrinseche, e le valutazioni su benchmark standard (ad esempio, matematica e codifica) non sono sufficienti per catturare il degrado della qualità causato dal decoding parallelo. Per colmare questa lacuna, forniamo prima un'analisi teorica dell'informazione del decoding parallelo. Successivamente, conduciamo studi di caso su operazioni sintetiche di liste analiticamente trattabili, sia dal punto di vista della distribuzione dei dati che della strategia di decoding, offrendo intuizioni quantitative che evidenziano le limitazioni fondamentali del decoding parallelo. Basandoci su queste intuizioni, proponiamo ParallelBench, il primo benchmark specificamente progettato per i dLLM, che include task realistici banali per gli esseri umani e per i LLM autoregressivi, ma eccezionalmente impegnativi per i dLLM sotto decoding parallelo. Utilizzando ParallelBench, analizziamo sistematicamente sia i dLLM che i LLM autoregressivi, rivelando che: (i) i dLLM sotto decoding parallelo possono subire un drastico degrado della qualità in scenari reali, e (ii) le attuali strategie di decoding parallelo faticano ad adattare il grado di parallelismo in base alla difficoltà del task, fallendo così nel raggiungere un significativo aumento di velocità senza compromettere la qualità. Le nostre scoperte sottolineano la necessità urgente di metodi di decoding innovativi in grado di superare l'attuale compromesso tra velocità e qualità. Rilasciamo il nostro benchmark per aiutare ad accelerare lo sviluppo di dLLM veramente efficienti.
English
While most autoregressive LLMs are constrained to one-by-one decoding,
diffusion LLMs (dLLMs) have attracted growing interest for their potential to
dramatically accelerate inference through parallel decoding. Despite this
promise, the conditional independence assumption in dLLMs causes parallel
decoding to ignore token dependencies, inevitably degrading generation quality
when these dependencies are strong. However, existing works largely overlook
these inherent challenges, and evaluations on standard benchmarks (e.g., math
and coding) are not sufficient to capture the quality degradation caused by
parallel decoding. To address this gap, we first provide an
information-theoretic analysis of parallel decoding. We then conduct case
studies on analytically tractable synthetic list operations from both data
distribution and decoding strategy perspectives, offering quantitative insights
that highlight the fundamental limitations of parallel decoding. Building on
these insights, we propose ParallelBench, the first benchmark specifically
designed for dLLMs, featuring realistic tasks that are trivial for humans and
autoregressive LLMs yet exceptionally challenging for dLLMs under parallel
decoding. Using ParallelBench, we systematically analyze both dLLMs and
autoregressive LLMs, revealing that: (i) dLLMs under parallel decoding can
suffer dramatic quality degradation in real-world scenarios, and (ii) current
parallel decoding strategies struggle to adapt their degree of parallelism
based on task difficulty, thus failing to achieve meaningful speedup without
compromising quality. Our findings underscore the pressing need for innovative
decoding methods that can overcome the current speed-quality trade-off. We
release our benchmark to help accelerate the development of truly efficient
dLLMs.