DMax : Décodage parallèle agressif pour les LLMs décentralisés
DMax: Aggressive Parallel Decoding for dLLMs
April 9, 2026
Auteurs: Zigeng Chen, Gongfan Fang, Xinyin Ma, Ruonan Yu, Xinchao Wang
cs.AI
Résumé
Nous présentons DMax, un nouveau paradigme pour les modèles de langage à diffusion efficaces (dLLM). Il atténue l'accumulation d'erreurs lors du décodage parallèle, permettant un parallélisme de décodage agressif tout en préservant la qualité de génération. Contrairement aux dLLM masqués conventionnels qui décodent via une transition binaire masque-vers-jeton, DMax reformule le décodage comme un auto-affinement progressif des embeddings de masque vers les embeddings de jetons. Au cœur de notre approche se trouve l'Entraînement Uniforme sur Politique, une nouvelle stratégie d'entraînement qui unifie efficacement les dLLM masqués et uniformes, dotant le modèle de la capacité à restaurer des jetons propres à partir d'entrées masquées et de ses propres prédictions erronées. Sur cette base, nous proposons en outre le Décodage Parallèle Doux. Nous représentons chaque état de décodage intermédiaire comme une interpolation entre l'embedding de jeton prédit et l'embedding de masque, permettant une auto-révision itérative dans l'espace d'embedding. Des expériences approfondies sur divers benchmarks démontrent l'efficacité de DMax. Par rapport au LLaMA-2.0-mini original, notre méthode amémente le TPF sur GSM8K de 2,04 à 5,47 tout en préservant la précision. Sur MBPP, il augmente le TPF de 2,71 à 5,86 tout en maintenant des performances comparables. Sur deux GPU H200, notre modèle atteint en moyenne 1 338 TPS pour une taille de lot de 1. Le code est disponible à l'adresse : https://github.com/czg1225/DMax
English
We present DMax, a new paradigm for efficient diffusion language models (dLLMs). It mitigates error accumulation in parallel decoding, enabling aggressive decoding parallelism while preserving generation quality. Unlike conventional masked dLLMs that decode through a binary mask-to-token transition, DMax reformulates decoding as a progressive self-refinement from mask embeddings to token embeddings. At the core of our approach is On-Policy Uniform Training, a novel training strategy that efficiently unifies masked and uniform dLLMs, equipping the model to recover clean tokens from both masked inputs and its own erroneous predictions. Building on this foundation, we further propose Soft Parallel Decoding. We represent each intermediate decoding state as an interpolation between the predicted token embedding and the mask embedding, enabling iterative self-revising in embedding space. Extensive experiments across a variety of benchmarks demonstrate the effectiveness of DMax. Compared with the original LLaDA-2.0-mini, our method improves TPF on GSM8K from 2.04 to 5.47 while preserving accuracy. On MBPP, it increases TPF from 2.71 to 5.86 while maintaining comparable performance. On two H200 GPUs, our model achieves an average of 1,338 TPS at batch size 1. Code is available at: https://github.com/czg1225/DMax