dParallel: Обучаемое параллельное декодирование для dLLM
dParallel: Learnable Parallel Decoding for dLLMs
September 30, 2025
Авторы: Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
cs.AI
Аннотация
Диффузионные большие языковые модели (dLLM) недавно привлекли значительное внимание исследовательского сообщества как перспективная альтернатива авторегрессивной генерации, предлагая параллельное предсказание токенов и более низкую задержку при выводе. Однако их потенциал для параллельного декодирования остается в значительной степени неисследованным, поскольку существующие модели с открытым исходным кодом по-прежнему требуют почти столько же шагов декодирования, сколько и длина токенов, чтобы обеспечить производительность. Чтобы решить эту проблему, мы представляем dParallel — простой и эффективный метод, который раскрывает внутренний параллелизм dLLM для быстрого сэмплирования. Мы выяснили, что ключевым узким местом для параллельного декодирования является последовательное сходимость уверенности для маскированных токенов. Основываясь на этом наблюдении, мы представляем основу нашего подхода: дистилляцию с принудительной уверенностью — новую стратегию обучения, которая дистиллирует модель для следования её исходным траекториям сэмплирования, одновременно заставляя её достигать высокой уверенности в маскированных токенах быстрее и параллельно. Многочисленные эксперименты на различных бенчмарках демонстрируют, что наш метод может значительно сократить количество шагов декодирования при сохранении производительности. При применении к модели LLaDA-8B-Instruct dParallel сокращает количество шагов декодирования с 256 до 30 на GSM8K, достигая ускорения в 8,5 раз без ухудшения производительности. На бенчмарке MBPP он сокращает шаги декодирования с 256 до 24, что приводит к ускорению в 10,5 раз при сохранении точности. Наш код доступен по адресу https://github.com/czg1225/dParallel.
English
Diffusion large language models (dLLMs) have recently drawn considerable
attention within the research community as a promising alternative to
autoregressive generation, offering parallel token prediction and lower
inference latency. Yet, their parallel decoding potential remains largely
underexplored, as existing open-source models still require nearly token-length
decoding steps to ensure performance. To address this, we introduce dParallel,
a simple and effective method that unlocks the inherent parallelism of dLLMs
for fast sampling. We identify that the key bottleneck to parallel decoding
arises from the sequential certainty convergence for masked tokens. Building on
this insight, we introduce the core of our approach: certainty-forcing
distillation, a novel training strategy that distills the model to follow its
original sampling trajectories while enforcing it to achieve high certainty on
masked tokens more rapidly and in parallel. Extensive experiments across
various benchmarks demonstrate that our method can dramatically reduce the
number of decoding steps while maintaining performance. When applied to the
LLaDA-8B-Instruct model, dParallel reduces decoding steps from 256 to 30 on
GSM8K, achieving an 8.5x speedup without performance degradation. On the MBPP
benchmark, it cuts decoding steps from 256 to 24, resulting in a 10.5x speedup
while maintaining accuracy. Our code is available at
https://github.com/czg1225/dParallel