ChatPaper.aiChatPaper

Efficient-DLM: От авторегрессионных к диффузионным языковым моделям и далее в погоне за скоростью

Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

December 16, 2025
Авторы: Yonggan Fu, Lexington Whalen, Zhifan Ye, Xin Dong, Shizhe Diao, Jingyu Liu, Chengyue Wu, Hao Zhang, Enze Xie, Song Han, Maksim Khadkevich, Jan Kautz, Yingyan Celine Lin, Pavlo Molchanov
cs.AI

Аннотация

Диффузионные языковые модели (dLM) стали перспективной парадигмой, позволяющей осуществлять параллельную неавторегрессионную генерацию, однако их эффективность обучения при тренировке с нуля отстает от авторегрессионных (AR) языковых моделей. Для решения этой проблемы мы исследуем преобразование AR-моделей в dLM с целью создания эффективных диффузионных моделей, которые сочетают высокую скорость работы с сохранением точности исходных AR-моделей. Мы достигаем этого путем выявления ограничений в шаблонах внимания и целевых функциях существующих методов AR-to-dLM и предложения принципов и методологий для более эффективного преобразования. В частности, мы сначала систематически сравниваем различные шаблоны внимания и обнаруживаем, что сохранение распределений весов предобученных AR-моделей критически важно для эффективного преобразования. Таким образом, мы предлагаем схему непрерывного предобучения с блочным шаблоном внимания, который сохраняет причинность между блоками, обеспечивая при этом двунаправленное моделирование внутри каждого блока. Мы обнаружили, что этот подход лучше сохраняет распределения весов предобученных AR-моделей по сравнению с полностью двунаправленным моделированием, а также обладает известным преимуществом поддержки KV-кэширования, что приводит к выигрышу как в точности, так и в эффективности. Во-вторых, для сокращения разрыва между обучением и тестированием в распределениях маскированных токенов (равномерное против сильно лево-правого) мы предлагаем стратегию позиционно-зависимого маскирования токенов, которая назначает более высокие вероятности маскирования поздним токенам во время обучения для лучшего соответствия поведению на этапе тестирования. Используя этот фреймворк, мы проводим масштабные исследования шаблонов внимания dLM, динамики обучения и других проектных решений, предоставляя практические рекомендации по масштабируемому преобразованию AR-to-dLM. Эти исследования приводят к созданию семейства Efficient-DLM, которое превосходит современные AR-модели и dLM: например, наша модель Efficient-DLM 8B демонстрирует на +5,4%/+2,7% более высокую точность при пропускной способности в 4,5x/2,7x выше по сравнению с Dream 7B и Qwen3 4B соответственно.
English
Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.
PDF61December 18, 2025