ParallelBench: 확산 LLM에서 병렬 디코딩의 트레이드오프 이해
ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs
October 6, 2025
저자: Wonjun Kang, Kevin Galim, Seunghyuk Oh, Minjae Lee, Yuchen Zeng, Shuibai Zhang, Coleman Hooper, Yuezhou Hu, Hyung Il Koo, Nam Ik Cho, Kangwook Lee
cs.AI
초록
대부분의 자기회귀적 대형 언어 모델(LLM)이 한 번에 하나씩 디코딩하는 방식에 제약을 받는 반면, 확산 LLM(dLLM)은 병렬 디코딩을 통해 추론 속도를 극적으로 가속화할 가능성으로 인해 점점 더 많은 관심을 끌고 있습니다. 이러한 가능성에도 불구하고, dLLM의 조건부 독립성 가정은 병렬 디코딩이 토큰 간의 의존성을 무시하게 만들어, 이러한 의존성이 강할 경우 필연적으로 생성 품질이 저하되는 문제를 야기합니다. 그러나 기존 연구들은 이러한 본질적인 문제를 크게 간과했으며, 표준 벤치마크(예: 수학 및 코딩)에서의 평가는 병렬 디코딩으로 인한 품질 저하를 충분히 포착하지 못합니다. 이러한 격차를 해소하기 위해, 우리는 먼저 병렬 디코딩에 대한 정보 이론적 분석을 제공합니다. 그런 다음, 데이터 분포와 디코딩 전략 관점에서 분석적으로 다룰 수 있는 합성 리스트 연산에 대한 사례 연구를 수행하여, 병렬 디코딩의 근본적인 한계를 부각시키는 정량적 통찰을 제공합니다. 이러한 통찰을 바탕으로, 우리는 dLLM을 위해 특별히 설계된 첫 번째 벤치마크인 ParallelBench를 제안합니다. 이 벤치마크는 인간과 자기회귀적 LLM에게는 사소하지만 병렬 디코딩 하의 dLLM에게는 매우 도전적인 현실적인 작업들을 포함합니다. ParallelBench를 사용하여, 우리는 dLLM과 자기회귀적 LLM을 체계적으로 분석하여 다음과 같은 사실을 밝혀냈습니다: (i) 병렬 디코딩 하의 dLLM은 실제 시나리오에서 극적인 품질 저하를 겪을 수 있으며, (ii) 현재의 병렬 디코딩 전략들은 작업 난이도에 따라 병렬화 정도를 조정하는 데 어려움을 겪어, 품질 저하 없이 의미 있는 속도 향상을 달성하지 못합니다. 우리의 연구 결과는 현재의 속도-품질 트레이드오프를 극복할 수 있는 혁신적인 디코딩 방법의 시급한 필요성을 강조합니다. 우리는 진정으로 효율적인 dLLM 개발을 가속화하기 위해 이 벤치마크를 공개합니다.
English
While most autoregressive LLMs are constrained to one-by-one decoding,
diffusion LLMs (dLLMs) have attracted growing interest for their potential to
dramatically accelerate inference through parallel decoding. Despite this
promise, the conditional independence assumption in dLLMs causes parallel
decoding to ignore token dependencies, inevitably degrading generation quality
when these dependencies are strong. However, existing works largely overlook
these inherent challenges, and evaluations on standard benchmarks (e.g., math
and coding) are not sufficient to capture the quality degradation caused by
parallel decoding. To address this gap, we first provide an
information-theoretic analysis of parallel decoding. We then conduct case
studies on analytically tractable synthetic list operations from both data
distribution and decoding strategy perspectives, offering quantitative insights
that highlight the fundamental limitations of parallel decoding. Building on
these insights, we propose ParallelBench, the first benchmark specifically
designed for dLLMs, featuring realistic tasks that are trivial for humans and
autoregressive LLMs yet exceptionally challenging for dLLMs under parallel
decoding. Using ParallelBench, we systematically analyze both dLLMs and
autoregressive LLMs, revealing that: (i) dLLMs under parallel decoding can
suffer dramatic quality degradation in real-world scenarios, and (ii) current
parallel decoding strategies struggle to adapt their degree of parallelism
based on task difficulty, thus failing to achieve meaningful speedup without
compromising quality. Our findings underscore the pressing need for innovative
decoding methods that can overcome the current speed-quality trade-off. We
release our benchmark to help accelerate the development of truly efficient
dLLMs.