DMax: Agressieve Parallelle Decodering voor dLLM's

Samenvatting

Wij presenteren DMax, een nieuw paradigma voor efficiënte diffusie-taalmodellen (dLLM's). Het vermindert foutaccumulatie bij parallel decoderen, waardoor agressieve decoderingparalleliteit mogelijk wordt zonder in te boeten aan generatiekwaliteit. In tegenstelling tot conventionele gemaskeerde dLLM's die decoderen via een binaire masker-naar-token-overgang, herformuleert DMax decoderen als een progressieve zelfverfijning van masker-embeddingen naar token-embeddingen. De kern van onze aanpak is On-Policy Uniform Training, een nieuwe trainingsstrategie die gemaskeerde en uniforme dLLM's efficiënt verenigt en het model in staat stelt om schone tokens te herstellen vanuit zowel gemaskeerde invoer als zijn eigen foutieve voorspellingen. Voortbouwend op deze basis stellen we verder Soft Parallel Decoding voor. Wij vertegenwoordigen elke tussenliggende decoderingstoestand als een interpolatie tussen de voorspelde token-embedding en de masker-embedding, wat iteratieve zelfrevisie in de embeddingruimte mogelijk maakt. Uitgebreide experimenten op diverse benchmarks tonen de effectiviteit van DMax aan. Vergeleken met de originele LLaMA-2.0-mini verbetert onze methode de TPF op GSM8K van 2,04 naar 5,47 terwijl de nauwkeurigheid behouden blijft. Op MBPP verhoogt het de TPF van 2,71 naar 5,86 met behoud van vergelijkbare prestaties. Op twee H200 GPU's behaalt ons model gemiddeld 1.338 TPS bij batchgrootte 1. Code is beschikbaar op: https://github.com/czg1225/DMax

English

We present DMax, a new paradigm for efficient diffusion language models (dLLMs). It mitigates error accumulation in parallel decoding, enabling aggressive decoding parallelism while preserving generation quality. Unlike conventional masked dLLMs that decode through a binary mask-to-token transition, DMax reformulates decoding as a progressive self-refinement from mask embeddings to token embeddings. At the core of our approach is On-Policy Uniform Training, a novel training strategy that efficiently unifies masked and uniform dLLMs, equipping the model to recover clean tokens from both masked inputs and its own erroneous predictions. Building on this foundation, we further propose Soft Parallel Decoding. We represent each intermediate decoding state as an interpolation between the predicted token embedding and the mask embedding, enabling iterative self-revising in embedding space. Extensive experiments across a variety of benchmarks demonstrate the effectiveness of DMax. Compared with the original LLaDA-2.0-mini, our method improves TPF on GSM8K from 2.04 to 5.47 while preserving accuracy. On MBPP, it increases TPF from 2.71 to 5.86 while maintaining comparable performance. On two H200 GPUs, our model achieves an average of 1,338 TPS at batch size 1. Code is available at: https://github.com/czg1225/DMax

DMax: Agressieve Parallelle Decodering voor dLLM's

DMax: Aggressive Parallel Decoding for dLLMs

Samenvatting

Support