DMax: Агрессивное параллельное декодирование для dLLM

Аннотация

Мы представляем DMax — новую парадигму для эффективных диффузионных языковых моделей (dLLM). Данный подход снижает накопление ошибок при параллельном декодировании, обеспечивая высокую степень параллелизма декодирования при сохранении качества генерации. В отличие от традиционных масочных dLLM, выполняющих декодирование через бинарный переход от маски к токену, DMax переформулирует декодирование как прогрессивное самоуточнение от эмбеддингов маски к эмбеддингам токенов. Основой нашего подхода является обучение с унифицированной политикой — новая стратегия обучения, которая эффективно объединяет маскированные и унифицированные dLLM, наделяя модель способностью восстанавливать чистые токены как из маскированных входных данных, так и из собственных ошибочных предсказаний. На этой основе мы дополнительно предлагаем мягкое параллельное декодирование. Мы представляем каждое промежуточное состояние декодирования как интерполяцию между предсказанным эмбеддингом токена и эмбеддингом маски, что позволяет осуществлять итеративное самоисправление в пространстве эмбеддингов. Многочисленные эксперименты на различных бенчмарках демонстрируют эффективность DMax. По сравнению с исходной LLaMA-2.0-mini наш метод улучшает TPF на GSM8K с 2,04 до 5,47 при сохранении точности. На MBPP он увеличивает TPF с 2,71 до 5,86 при сохранении сопоставимой производительности. На двух GPU H200 наша модель достигает в среднем 1338 TPS при размере пакета 1. Код доступен по адресу: https://github.com/czg1225/DMax

English

We present DMax, a new paradigm for efficient diffusion language models (dLLMs). It mitigates error accumulation in parallel decoding, enabling aggressive decoding parallelism while preserving generation quality. Unlike conventional masked dLLMs that decode through a binary mask-to-token transition, DMax reformulates decoding as a progressive self-refinement from mask embeddings to token embeddings. At the core of our approach is On-Policy Uniform Training, a novel training strategy that efficiently unifies masked and uniform dLLMs, equipping the model to recover clean tokens from both masked inputs and its own erroneous predictions. Building on this foundation, we further propose Soft Parallel Decoding. We represent each intermediate decoding state as an interpolation between the predicted token embedding and the mask embedding, enabling iterative self-revising in embedding space. Extensive experiments across a variety of benchmarks demonstrate the effectiveness of DMax. Compared with the original LLaDA-2.0-mini, our method improves TPF on GSM8K from 2.04 to 5.47 while preserving accuracy. On MBPP, it increases TPF from 2.71 to 5.86 while maintaining comparable performance. On two H200 GPUs, our model achieves an average of 1,338 TPS at batch size 1. Code is available at: https://github.com/czg1225/DMax

DMax: Агрессивное параллельное декодирование для dLLM

DMax: Aggressive Parallel Decoding for dLLMs

Аннотация

Support