От предсказания следующего токена к предсказанию следующего блока: принципиальный путь адаптации для диффузионных языковых моделей

Аннотация

Крупные языковые модели (LLM) демонстрируют превосходные способности к генерации, однако доминирующее авторегрессионное (AR) декодирование по своей природе является последовательным, что создает узкое место в пропускной способности. Диффузионные языковые модели (DLM), особенно их блочные варианты, позволяют осуществлять параллельную генерацию и двунаправленное рассуждение внутри блока, однако обучение больших DLM с нуля является дорогостоящим и расточительным по отношению к знаниям, содержащимся в зрелых AR-чеках. Предыдущие попытки "адаптации" либо модифицировали логиты или случайным образом расширяли маски внимания до полнопоследовательной диффузии, либо просто переносили AR-веса в рецепт блочной диффузии, не решая фундаментального несоответствия между AR-причинностью и блочной двунаправленностью. Мы переосмысливаем адаптацию как внутрипарадигмальный путь от AR к блочной диффузии, рассматривая AR как частный случай блочной диффузии с размером блока = 1. Конкретно, мы разрабатываем путь адаптации следующим образом: используем контекстно-каузальную маску внимания (каузальную в контексте, двунаправленную только внутри активного блока), эффективную процедуру параллельной адаптации, вспомогательную AR-функцию потерь для максимизации использования данных и сохранения предобученных знаний, а также постепенное увеличение размера блока генерации. Данный рецепт органично интегрируется с маскированной блочной диффузией и сохраняет согласованность обучения и вывода. Построенные на этих компонентах модели NBDiff-7B (Base и Instruct) смогли унаследовать способности к моделированию длинного контекста и логическому рассуждению, достигли наилучшей производительности в классе 7B-параметрических DLM и показали значительный прирост на бенчмарках общего знания, математики и кода по сравнению с сильными базовыми моделями. Эти результаты демонстрируют, что принципиальная адаптация от AR к блочной диффузии является эффективной и вычислительно экономной альтернативой обучению DLM с нуля. Код: https://github.com/YuchuanTian/NBDiff.

English

Large language models (LLMs) excel at generation but dominant autoregressive (AR) decoding is inherently sequential, creating a throughput bottleneck. Diffusion Language Models (DLMs)--especially block-wise variants--enable parallel generation and intra-block bidirectional reasoning, yet training large DLMs from scratch is costly and wastes the knowledge in mature AR checkpoints. Prior "adaptation" attempts either modify logits or randomly grow attention masks to full-sequence diffusion, or simply transplant AR weights into a block-diffusion recipe, leaving a fundamental mismatch between AR causality and block-wise bidirectionality unaddressed. We reframe adaptation as a intra-paradigm path from AR to Block-Diffusion by viewing AR as Block-Diffusion with blocksize=1. Concretely, we design the pathway of adaptation as follows: we use a context-causal attention mask (causal in context, bidirectional only within the active block), an efficient parallel adaptation procedure, an auxiliary AR loss to maximize data utilization and retain pretrained knowledge, and gradual increment of the generation block size. The recipe integrates cleanly with masked block-diffusion and maintains train-inference consistency. Built on these components, NBDiff-7B (Base and Instruct) could inherit the long-context modeling and reasoning capabilities, and achieve state-of-the-art performance among the 7B-class DLMs, delivering strong gains on general-knowledge, math, and code benchmarks over strong baselines. These results demonstrate that principled AR-to-block-diffusion adaptation is an effective and compute-efficient alternative to training DLMs from scratch. Codes: https://github.com/YuchuanTian/NBDiff.

От предсказания следующего токена к предсказанию следующего блока: принципиальный путь адаптации для диффузионных языковых моделей

From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs

Аннотация

Support