MDM-Prime-v2: Бинарное кодирование и перетасовка индексов обеспечивают вычислительно-оптимальное масштабирование диффузионных языковых моделей
MDM-Prime-v2: Binary Encoding and Index Shuffling Enable Compute-optimal Scaling of Diffusion Language Models
March 17, 2026
Авторы: Chen-Hao Chao, Wei-Fang Sun, Junwei Qua, Chun-Yi Lee, Rahul G. Krishnan
cs.AI
Аннотация
Маскированные диффузионные модели (MDM) демонстрируют превосходную обобщающую способность при обучении с использованием схемы частичного маскирования (Prime). Этот подход преобразует токены в под-токены и моделирует процесс диффузии на уровне под-токенов. Мы выявляем два ограничения фреймворка MDM-Prime. Во-первых, нам не хватает инструментов для обоснованного выбора гиперпараметра гранулярности токенов в субтокенизаторе. Во-вторых, мы обнаруживаем, что функциональная форма субтокенизатора значительно ухудшает оценку правдоподобия при использовании с широко распространенными токенизаторами Byte-Pair-Encoding (BPE). Для преодоления этих ограничений мы исследуем плотность вариационной границы в MDM-Prime и разрабатываем MDM-Prime-v2 — маскированную диффузионную языковую модель, которая включает в себя двоичное кодирование и перестановку индексов. Наш анализ масштабирования показывает, что MDM-Prime-v2 в 21,8 раза эффективнее по вычислительным затратам, чем авторегрессивные модели (ARM). В вычислительно-оптимальных сравнениях MDM-Prime-v2 достигает перплексии 7,77 на OpenWebText, превосходя показатели ARM (12,99), MDM (18,94) и MDM-Prime (13,41). При увеличении размера модели до 1,1 млрд параметров наша модель дополнительно демонстрирует превосходную точность в условиях zero-shot на различных задачах здравого рассуждения.
English
Masked diffusion models (MDM) exhibit superior generalization when learned using a Partial masking scheme (Prime). This approach converts tokens into sub-tokens and models the diffusion process at the sub-token level. We identify two limitations of the MDM-Prime framework. First, we lack tools to guide the hyperparameter choice of the token granularity in the subtokenizer. Second, we find that the function form of the subtokenizer significantly degrades likelihood estimation when paired with commonly used Byte-Pair-Encoding (BPE) tokenizers. To address these limitations, we study the tightness of the variational bound in MDM-Prime and develop MDM-Prime-v2, a masked diffusion language model which incorporates Binary Encoding and Index Shuffling. Our scaling analysis reveals that MDM-Prime-v2 is 21.8times more compute-efficient than autoregressive models (ARM). In compute-optimal comparisons, MDM-Prime-v2 achieves 7.77 perplexity on OpenWebText, outperforming ARM (12.99), MDM (18.94), and MDM-Prime (13.41). When extending the model size to 1.1B parameters, our model further demonstrates superior zero-shot accuracy on various commonsense reasoning tasks.