DMax: Decodificação Paralela Agressiva para dLLMs

Resumo

Apresentamos o DMax, um novo paradigma para modelos de linguagem de difusão (dLLMs) eficientes. Ele mitiga o acúmulo de erros na decodificação paralela, permitindo um paralelismo agressivo na decodificação enquanto preserva a qualidade da geração. Diferente dos dLLMs mascarados convencionais, que decodificam através de uma transição binária de máscara para token, o DMax reformula a decodificação como um autorrefinamento progressivo de *embeddings* de máscara para *embeddings* de token. O cerne de nossa abordagem é o Treinamento Uniforme Baseado em Política (*On-Policy Uniform Training*), uma nova estratégia de treinamento que unifica eficientemente dLLMs mascarados e uniformes, capacitando o modelo para recuperar tokens limpos tanto a partir de entradas mascaradas quanto de suas próprias previsões errôneas. Com base nesse fundamento, propomos ainda a Decodificação Paralela Suave (*Soft Parallel Decoding*). Representamos cada estado intermediário de decodificação como uma interpolação entre o *embedding* de token previsto e o *embedding* de máscara, permitindo uma autorevisão iterativa no espaço de *embeddings*. Extensivos experimentos em uma variedade de benchmarks demonstram a eficácia do DMax. Em comparação com o LLaMA-2.0-mini original, nosso método melhora o TPF no GSM8K de 2,04 para 5,47, mantendo a precisão. No MBPP, ele aumenta o TPF de 2,71 para 5,86, mantendo um desempenho comparável. Em duas GPUs H200, nosso modelo alcança uma média de 1.338 TPS com tamanho de lote 1. O código está disponível em: https://github.com/czg1225/DMax

English

We present DMax, a new paradigm for efficient diffusion language models (dLLMs). It mitigates error accumulation in parallel decoding, enabling aggressive decoding parallelism while preserving generation quality. Unlike conventional masked dLLMs that decode through a binary mask-to-token transition, DMax reformulates decoding as a progressive self-refinement from mask embeddings to token embeddings. At the core of our approach is On-Policy Uniform Training, a novel training strategy that efficiently unifies masked and uniform dLLMs, equipping the model to recover clean tokens from both masked inputs and its own erroneous predictions. Building on this foundation, we further propose Soft Parallel Decoding. We represent each intermediate decoding state as an interpolation between the predicted token embedding and the mask embedding, enabling iterative self-revising in embedding space. Extensive experiments across a variety of benchmarks demonstrate the effectiveness of DMax. Compared with the original LLaDA-2.0-mini, our method improves TPF on GSM8K from 2.04 to 5.47 while preserving accuracy. On MBPP, it increases TPF from 2.71 to 5.86 while maintaining comparable performance. On two H200 GPUs, our model achieves an average of 1,338 TPS at batch size 1. Code is available at: https://github.com/czg1225/DMax

DMax: Decodificação Paralela Agressiva para dLLMs

DMax: Aggressive Parallel Decoding for dLLMs

Resumo

Support