De la prédiction du token suivant à celle du bloc suivant : une voie d'adaptation raisonnée pour les modèles de langage de type diffusion
From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs
December 7, 2025
papers.authors: Yuchuan Tian, Yuchen Liang, Jiacheng Sun, Shuo Zhang, Guangwen Yang, Yingte Shu, Sibo Fang, Tianyu Guo, Kai Han, Chao Xu, Hanting Chen, Xinghao Chen, Yunhe Wang
cs.AI
papers.abstract
Les grands modèles de langage (LLM) excellent en génération, mais le décodage autorégressif (AR) dominant est intrinsèquement séquentiel, créant un goulot d'étranglement de débit. Les modèles de langage par diffusion (DLM) – particulièrement leurs variantes par blocs – permettent une génération parallèle et un raisonnement bidirectionnel intra-bloc, mais l'entraînement de grands DLM à partir de zéro est coûteux et gaspille les connaissances contenues dans les checkpoints AR matures. Les tentatives précédentes d'« adaptation » modifient soit les logits, soit étendent aléatoirement les masques d'attention vers une diffusion à séquence complète, ou transplantent simplement les poids AR dans une recette de diffusion par blocs, sans résoudre l'inadéquation fondamentale entre la causalité AR et la bidirectionnalité par blocs. Nous reformulons l'adaptation comme un chemin intra-paradigme allant de l'AR vers la diffusion par blocs en considérant l'AR comme une diffusion par blocs avec une taille de bloc=1. Concrètement, nous concevons le chemin d'adaptation comme suit : nous utilisons un masque d'attention contextuel-causal (causal dans le contexte, bidirectionnel uniquement dans le bloc actif), une procédure d'adaptation parallèle efficace, une perte AR auxiliaire pour maximiser l'utilisation des données et préserver les connaissances pré-entraînées, et un accroissement progressif de la taille du bloc de génération. La recette s'intègre naturellement à la diffusion par blocs masqués et maintient la cohérence entraînement-inférence. Sur cette base, NBDiff-7B (Base et Instruct) peut hériter des capacités de modélisation de contexte long et de raisonnement, et atteint des performances de pointe parmi les DLM de classe 7B, apportant des gains significatifs sur les benchmarks de connaissances générales, de mathématiques et de code par rapport à des bases de référence solides. Ces résultats démontrent qu'une adaptation raisonnée de l'AR vers la diffusion par blocs est une alternative efficace et économe en calcul à l'entraînement de DLM à partir de zéro. Codes : https://github.com/YuchuanTian/NBDiff.
English
Large language models (LLMs) excel at generation but dominant autoregressive (AR) decoding is inherently sequential, creating a throughput bottleneck. Diffusion Language Models (DLMs)--especially block-wise variants--enable parallel generation and intra-block bidirectional reasoning, yet training large DLMs from scratch is costly and wastes the knowledge in mature AR checkpoints. Prior "adaptation" attempts either modify logits or randomly grow attention masks to full-sequence diffusion, or simply transplant AR weights into a block-diffusion recipe, leaving a fundamental mismatch between AR causality and block-wise bidirectionality unaddressed. We reframe adaptation as a intra-paradigm path from AR to Block-Diffusion by viewing AR as Block-Diffusion with blocksize=1. Concretely, we design the pathway of adaptation as follows: we use a context-causal attention mask (causal in context, bidirectional only within the active block), an efficient parallel adaptation procedure, an auxiliary AR loss to maximize data utilization and retain pretrained knowledge, and gradual increment of the generation block size. The recipe integrates cleanly with masked block-diffusion and maintains train-inference consistency. Built on these components, NBDiff-7B (Base and Instruct) could inherit the long-context modeling and reasoning capabilities, and achieve state-of-the-art performance among the 7B-class DLMs, delivering strong gains on general-knowledge, math, and code benchmarks over strong baselines. These results demonstrate that principled AR-to-block-diffusion adaptation is an effective and compute-efficient alternative to training DLMs from scratch. Codes: https://github.com/YuchuanTian/NBDiff.