ParallelBench: Исследование компромиссов параллельного декодирования в диффузионных языковых моделях
ParallelBench: Understanding the Trade-offs of Parallel Decoding in Diffusion LLMs
October 6, 2025
Авторы: Wonjun Kang, Kevin Galim, Seunghyuk Oh, Minjae Lee, Yuchen Zeng, Shuibai Zhang, Coleman Hooper, Yuezhou Hu, Hyung Il Koo, Nam Ik Cho, Kangwook Lee
cs.AI
Аннотация
Хотя большинство авторегрессивных больших языковых моделей (LLM) ограничены последовательным декодированием, диффузионные LLM (dLLM) привлекают всё больше внимания благодаря их потенциалу для значительного ускорения вывода за счёт параллельного декодирования. Несмотря на это преимущество, предположение об условной независимости в dLLM приводит к тому, что параллельное декодирование игнорирует зависимости между токенами, что неизбежно ухудшает качество генерации, когда эти зависимости сильны. Однако существующие работы в значительной степени упускают из виду эти фундаментальные проблемы, а оценки на стандартных бенчмарках (например, математика и программирование) недостаточны для выявления ухудшения качества, вызванного параллельным декодированием. Чтобы устранить этот пробел, мы сначала проводим информационно-теоретический анализ параллельного декодирования. Затем мы исследуем аналитически доступные синтетические операции со списками с точки зрения распределения данных и стратегий декодирования, предлагая количественные инсайты, которые подчеркивают фундаментальные ограничения параллельного декодирования. На основе этих инсайтов мы предлагаем ParallelBench — первый бенчмарк, специально разработанный для dLLM, включающий реалистичные задачи, которые тривиальны для людей и авторегрессивных LLM, но исключительно сложны для dLLM при параллельном декодировании. Используя ParallelBench, мы систематически анализируем как dLLM, так и авторегрессивные LLM, выявляя, что: (i) dLLM при параллельном декодировании могут демонстрировать значительное ухудшение качества в реальных сценариях, и (ii) текущие стратегии параллельного декодирования не способны адаптировать степень параллелизма в зависимости от сложности задачи, что не позволяет достичь значительного ускорения без компромисса по качеству. Наши результаты подчеркивают острую необходимость в инновационных методах декодирования, которые смогут преодолеть текущий компромисс между скоростью и качеством. Мы публикуем наш бенчмарк, чтобы ускорить разработку действительно эффективных dLLM.
English
While most autoregressive LLMs are constrained to one-by-one decoding,
diffusion LLMs (dLLMs) have attracted growing interest for their potential to
dramatically accelerate inference through parallel decoding. Despite this
promise, the conditional independence assumption in dLLMs causes parallel
decoding to ignore token dependencies, inevitably degrading generation quality
when these dependencies are strong. However, existing works largely overlook
these inherent challenges, and evaluations on standard benchmarks (e.g., math
and coding) are not sufficient to capture the quality degradation caused by
parallel decoding. To address this gap, we first provide an
information-theoretic analysis of parallel decoding. We then conduct case
studies on analytically tractable synthetic list operations from both data
distribution and decoding strategy perspectives, offering quantitative insights
that highlight the fundamental limitations of parallel decoding. Building on
these insights, we propose ParallelBench, the first benchmark specifically
designed for dLLMs, featuring realistic tasks that are trivial for humans and
autoregressive LLMs yet exceptionally challenging for dLLMs under parallel
decoding. Using ParallelBench, we systematically analyze both dLLMs and
autoregressive LLMs, revealing that: (i) dLLMs under parallel decoding can
suffer dramatic quality degradation in real-world scenarios, and (ii) current
parallel decoding strategies struggle to adapt their degree of parallelism
based on task difficulty, thus failing to achieve meaningful speedup without
compromising quality. Our findings underscore the pressing need for innovative
decoding methods that can overcome the current speed-quality trade-off. We
release our benchmark to help accelerate the development of truly efficient
dLLMs.