ChatPaper.aiChatPaper

dParallel: Decodificação Paralela Aprendível para dLLMs

dParallel: Learnable Parallel Decoding for dLLMs

September 30, 2025
Autores: Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
cs.AI

Resumo

Modelos de linguagem de grande escala baseados em difusão (dLLMs) têm recentemente atraído considerável atenção na comunidade de pesquisa como uma alternativa promissora à geração autoregressiva, oferecendo previsão paralela de tokens e menor latência de inferência. No entanto, seu potencial de decodificação paralela permanece amplamente inexplorado, já que os modelos de código aberto existentes ainda exigem quase tantos passos de decodificação quanto o comprimento do token para garantir desempenho. Para resolver isso, introduzimos o dParallel, um método simples e eficaz que desbloqueia o paralelismo inerente dos dLLMs para amostragem rápida. Identificamos que o principal gargalo para a decodificação paralela surge da convergência sequencial de certeza para tokens mascarados. Com base nessa percepção, introduzimos o cerne de nossa abordagem: a destilação forçada de certeza, uma nova estratégia de treinamento que destila o modelo para seguir suas trajetórias de amostragem originais, ao mesmo tempo em que o obriga a alcançar alta certeza em tokens mascarados de forma mais rápida e paralela. Experimentos extensos em vários benchmarks demonstram que nosso método pode reduzir drasticamente o número de passos de decodificação enquanto mantém o desempenho. Quando aplicado ao modelo LLaDA-8B-Instruct, o dParallel reduz os passos de decodificação de 256 para 30 no GSM8K, alcançando uma aceleração de 8,5x sem degradação de desempenho. No benchmark MBPP, ele reduz os passos de decodificação de 256 para 24, resultando em uma aceleração de 10,5x enquanto mantém a precisão. Nosso código está disponível em https://github.com/czg1225/dParallel.
English
Diffusion large language models (dLLMs) have recently drawn considerable attention within the research community as a promising alternative to autoregressive generation, offering parallel token prediction and lower inference latency. Yet, their parallel decoding potential remains largely underexplored, as existing open-source models still require nearly token-length decoding steps to ensure performance. To address this, we introduce dParallel, a simple and effective method that unlocks the inherent parallelism of dLLMs for fast sampling. We identify that the key bottleneck to parallel decoding arises from the sequential certainty convergence for masked tokens. Building on this insight, we introduce the core of our approach: certainty-forcing distillation, a novel training strategy that distills the model to follow its original sampling trajectories while enforcing it to achieve high certainty on masked tokens more rapidly and in parallel. Extensive experiments across various benchmarks demonstrate that our method can dramatically reduce the number of decoding steps while maintaining performance. When applied to the LLaDA-8B-Instruct model, dParallel reduces decoding steps from 256 to 30 on GSM8K, achieving an 8.5x speedup without performance degradation. On the MBPP benchmark, it cuts decoding steps from 256 to 24, resulting in a 10.5x speedup while maintaining accuracy. Our code is available at https://github.com/czg1225/dParallel
PDF192October 1, 2025