Von Next-Token zu Next-Block: Ein prinzipieller Anpassungspfad für Diffusions-LLMs
From Next-Token to Next-Block: A Principled Adaptation Path for Diffusion LLMs
December 7, 2025
papers.authors: Yuchuan Tian, Yuchen Liang, Jiacheng Sun, Shuo Zhang, Guangwen Yang, Yingte Shu, Sibo Fang, Tianyu Guo, Kai Han, Chao Xu, Hanting Chen, Xinghao Chen, Yunhe Wang
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) zeichnen sich durch ihre Generierungsfähigkeiten aus, doch das dominante autoregressive (AR) Decoding ist inhärent sequenziell, was einen Durchsatzengpass verursacht. Diffusions-Sprachmodelle (DLMs) – insbesondere blockweise Varianten – ermöglichen parallele Generierung und bidirektionale Reasoning innerhalb eines Blocks. Allerdings ist das Training großer DLMs von Grund auf kostspielig und verschwendet das Wissen in ausgereiften AR-Checkpoints. Bisherige "Adaptions"-Versuche modifizieren entweder Logits oder erweitern Attention-Masken zufällig auf Full-Sequence-Diffusion, oder sie verpflanzen AR-Gewichte einfach in ein Block-Diffusion-Rezept, ohne den fundamentalen Konflikt zwischen AR-Kausalität und blockweiser Bidirektionalität zu lösen. Wir formulieren Adaption neu als einen intra-paradigmatischen Pfad von AR zu Block-Diffusion, indem wir AR als Block-Diffusion mit Blockgröße=1 betrachten. Konkret gestalten wir den Adaptionspfad wie folgt: Wir verwenden eine kontext-kausale Attention-Maske (kausal im Kontext, nur innerhalb des aktiven Blocks bidirektional), ein effizientes paralleles Adaptionsverfahren, einen auxiliary AR-Loss zur Maximierung der Datennutzung und Bewahrung vortrainierten Wissens sowie eine schrittweise Erhöhung der Generierungsblockgröße. Das Rezept integriert sich nahtlos in maskierte Block-Diffusion und wahrt Trainings-Inferenz-Konsistenz. Auf diesen Komponenten aufbauend konnte NBDiff-7B (Base und Instruct) die Fähigkeiten zur Modellierung langer Kontexte und zum Reasoning erben und erreicht state-of-the-art Leistung unter den 7B-DLMs, mit deutlichen Verbesserungen bei General-Knowledge-, Mathematik- und Code-Benchmarks gegenüber starken Baselines. Diese Ergebnisse zeigen, dass prinzipiengeleitete AR-zu-Block-Diffusion-Adaption eine effektive und recheneffiziente Alternative zum Training von DLMs von Grund auf darstellt. Codes: https://github.com/YuchuanTian/NBDiff.
English
Large language models (LLMs) excel at generation but dominant autoregressive (AR) decoding is inherently sequential, creating a throughput bottleneck. Diffusion Language Models (DLMs)--especially block-wise variants--enable parallel generation and intra-block bidirectional reasoning, yet training large DLMs from scratch is costly and wastes the knowledge in mature AR checkpoints. Prior "adaptation" attempts either modify logits or randomly grow attention masks to full-sequence diffusion, or simply transplant AR weights into a block-diffusion recipe, leaving a fundamental mismatch between AR causality and block-wise bidirectionality unaddressed. We reframe adaptation as a intra-paradigm path from AR to Block-Diffusion by viewing AR as Block-Diffusion with blocksize=1. Concretely, we design the pathway of adaptation as follows: we use a context-causal attention mask (causal in context, bidirectional only within the active block), an efficient parallel adaptation procedure, an auxiliary AR loss to maximize data utilization and retain pretrained knowledge, and gradual increment of the generation block size. The recipe integrates cleanly with masked block-diffusion and maintains train-inference consistency. Built on these components, NBDiff-7B (Base and Instruct) could inherit the long-context modeling and reasoning capabilities, and achieve state-of-the-art performance among the 7B-class DLMs, delivering strong gains on general-knowledge, math, and code benchmarks over strong baselines. These results demonstrate that principled AR-to-block-diffusion adaptation is an effective and compute-efficient alternative to training DLMs from scratch. Codes: https://github.com/YuchuanTian/NBDiff.