Van Volgend Token naar Volgend Blok: Een Principes-Gestuurde Adaptatieroute voor Diffusie-LLM's
From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs
December 7, 2025
Auteurs: Yuchuan Tian, Yuchen Liang, Jiacheng Sun, Shuo Zhang, Guangwen Yang, Yingte Shu, Sibo Fang, Tianyu Guo, Kai Han, Chao Xu, Hanting Chen, Xinghao Chen, Yunhe Wang
cs.AI
Samenvatting
Grote taalmodellen (LLM's) blinken uit in generatie, maar dominante autoregressieve (AR) decodering is inherent sequentieel, wat een doorvoerknelpunt creëert. Diffusietaalmodellen (DLM's)—met name blockgewijze varianten—maken parallelle generatie en bidirectioneel redeneren binnen een blok mogelijk, maar het trainen van grote DLM's vanaf nul is kostbaar en verspilt de kennis in volwassen AR-checkpoints. Eerdere "adaptatie"-pogingen passen logits aan of laten aandachtmaskers willekeurig groeien naar volledige-sequentie diffusie, of transplanteren eenvoudigweg AR-gewichten naar een blokdiffusie-recept, waarbij een fundamentele mismatch tussen AR-causaliteit en blockgewijze bidirectionaliteit onopgelost blijft. Wij herformuleren adaptatie als een intra-paradigm pad van AR naar Block-Diffusie door AR te beschouwen als Block-Diffusie met blokgrootte=1. Concreet ontwerpen we het adaptatiepad als volgt: we gebruiken een context-causaal aandachtmasker (causaal in de context, alleen bidirectioneel binnen het actieve blok), een efficiënte parallelle adaptatieprocedure, een aanvullende AR-verliesfunctie om datagebruik te maximaliseren en voorgetrainde kennis te behouden, en een geleidelijke verhoging van de generatieblokgrootte. Het recept integreert naadloos met gemaskeerde blokdiffusie en handhaaft consistentie tussen training en inferentie. Gebaseerd op deze componenten kon NBDiff-7B (Base en Instruct) de modellering van lange context en redeneervermogens erven, en presteert het state-of-the-art onder de 7B-klasse DLM's, met sterke winsten op algemene-kennis-, wiskunde- en codebenchmarks ten opzichte van sterke baseline-modellen. Deze resultaten tonen aan dat principeakige AR-naar-blokdiffusie-adaptatie een effectief en computationeel efficiënt alternatief is voor het vanaf nul trainen van DLM's. Code: https://github.com/YuchuanTian/NBDiff.
English
Large language models (LLMs) excel at generation but dominant autoregressive (AR) decoding is inherently sequential, creating a throughput bottleneck. Diffusion Language Models (DLMs)--especially block-wise variants--enable parallel generation and intra-block bidirectional reasoning, yet training large DLMs from scratch is costly and wastes the knowledge in mature AR checkpoints. Prior "adaptation" attempts either modify logits or randomly grow attention masks to full-sequence diffusion, or simply transplant AR weights into a block-diffusion recipe, leaving a fundamental mismatch between AR causality and block-wise bidirectionality unaddressed. We reframe adaptation as a intra-paradigm path from AR to Block-Diffusion by viewing AR as Block-Diffusion with blocksize=1. Concretely, we design the pathway of adaptation as follows: we use a context-causal attention mask (causal in context, bidirectional only within the active block), an efficient parallel adaptation procedure, an auxiliary AR loss to maximize data utilization and retain pretrained knowledge, and gradual increment of the generation block size. The recipe integrates cleanly with masked block-diffusion and maintains train-inference consistency. Built on these components, NBDiff-7B (Base and Instruct) could inherit the long-context modeling and reasoning capabilities, and achieve state-of-the-art performance among the 7B-class DLMs, delivering strong gains on general-knowledge, math, and code benchmarks over strong baselines. These results demonstrate that principled AR-to-block-diffusion adaptation is an effective and compute-efficient alternative to training DLMs from scratch. Codes: https://github.com/YuchuanTian/NBDiff.