DMax: Aggressives paralleles Decodieren für dLLMs

Zusammenfassung

Wir stellen DMax vor, ein neues Paradigma für effiziente Diffusions-Sprachmodelle (dLLMs). Es reduziert die Fehlerakkumulation beim parallelen Decodieren und ermöglicht eine aggressive Decodier-Parallelität bei gleichbleibender Generierungsqualität. Im Gegensatz zu konventionellen maskierten dLLMs, die durch einen binären Mask-zu-Token-Übergang decodieren, formuliert DMax das Decodieren als eine progressive Selbstverbesserung von Mask-Einbettungen zu Token-Einbettungen um. Kern unseres Ansatzes ist "On-Policy Uniform Training", eine neuartige Trainingsstrategie, die maskierte und einheitliche dLLMs effizient vereinheitlicht und das Modell befähigt, saubere Tokens sowohl aus maskierten Eingaben als auch aus seinen eigenen fehlerhaften Vorhersagen wiederherzustellen. Auf dieser Grundlage aufbauend schlagen wir weiterhin "Soft Parallel Decoding" vor. Wir repräsentieren jeden Zwischendecodierzustand als eine Interpolation zwischen der vorhergesagten Token-Einbettung und der Mask-Einbettung, was iterative Selbstrevision im Einbettungsraum ermöglicht. Umfangreiche Experimente über eine Vielzahl von Benchmarks belegen die Wirksamkeit von DMax. Im Vergleich zum ursprünglichen LLaMA-2.0-mini verbessert unsere Methode den TPF auf GSM8K von 2,04 auf 5,47 bei gleichbleibender Genauigkeit. Auf MBPP steigert sie den TPF von 2,71 auf 5,86 bei vergleichbarer Leistung. Auf zwei H200-GPUs erreicht unser Modell durchschnittlich 1.338 TPS bei einer Batch-Größe von 1. Der Code ist verfügbar unter: https://github.com/czg1225/DMax

English

We present DMax, a new paradigm for efficient diffusion language models (dLLMs). It mitigates error accumulation in parallel decoding, enabling aggressive decoding parallelism while preserving generation quality. Unlike conventional masked dLLMs that decode through a binary mask-to-token transition, DMax reformulates decoding as a progressive self-refinement from mask embeddings to token embeddings. At the core of our approach is On-Policy Uniform Training, a novel training strategy that efficiently unifies masked and uniform dLLMs, equipping the model to recover clean tokens from both masked inputs and its own erroneous predictions. Building on this foundation, we further propose Soft Parallel Decoding. We represent each intermediate decoding state as an interpolation between the predicted token embedding and the mask embedding, enabling iterative self-revising in embedding space. Extensive experiments across a variety of benchmarks demonstrate the effectiveness of DMax. Compared with the original LLaDA-2.0-mini, our method improves TPF on GSM8K from 2.04 to 5.47 while preserving accuracy. On MBPP, it increases TPF from 2.71 to 5.86 while maintaining comparable performance. On two H200 GPUs, our model achieves an average of 1,338 TPS at batch size 1. Code is available at: https://github.com/czg1225/DMax

DMax: Aggressives paralleles Decodieren für dLLMs

DMax: Aggressive Parallel Decoding for dLLMs

Zusammenfassung

Support