ChatPaper.aiChatPaper

Stable-DiffCoder: An der Spitze von Code-Diffusions-Modellen für große Sprachmodelle

Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

January 22, 2026
papers.authors: Chenghao Fan, Wen Heng, Bo Li, Sichen Liu, Yuxuan Song, Jing Su, Xiaoye Qu, Kai Shen, Wei Wei
cs.AI

papers.abstract

Diffusionsbasierte Sprachmodelle (DLLMs) ermöglichen im Vergleich zu autoregressiven (AR) Modellen eine nicht-sequenzielle, blockweise Generierung und eine umfangreichere Datenwiederverwendung. Dennoch liegen bestehende Code-DLLMs unter vergleichbaren Budgets immer noch hinter starken AR-Baselines zurück. Wir untersuchen diesen Ansatz in einer kontrollierten Studie erneut und stellen Stable-DiffCoder vor, ein Block-Diffusions-Codemodell, das die Seed-Coder-Architektur, -Daten und -Trainingspipeline wiederverwendet. Um effizientes Wissenslernen und stabiles Training zu ermöglichen, integrieren wir eine kontinuierliche Vortrainingsphase (CPT) für Block-Diffusion, die durch einen maßgeschneiderten Warmup und einen blockweise beschnittenen Noise-Schedule optimiert wird. Unter Verwendung derselben Daten und Architektur übertrifft Stable-DiffCoder insgesamt sein AR-Pendant in einer breiten Suite von Code-Benchmarks. Darüber hinaus erzielt Stable-DiffCoder allein durch die CPT- und überwachte Feintuning-Phasen eine stärkere Leistung als eine Vielzahl von ~8B ARs und DLLMs, was demonstriert, dass diffusionsbasiertes Training die Qualität der Codemodellierung über reines AR-Training hinaus verbessern kann. Zudem verbessert die diffusionsbasierte Modellierung in beliebiger Reihenfolge die strukturierte Codemodellierung für Bearbeitungs- und Reasoning-Aufgaben und kommt durch Datenanreicherung ressourcenarmen Programmiersprachen zugute.
English
Diffusion-based language models (DLLMs) offer non-sequential, block-wise generation and richer data reuse compared to autoregressive (AR) models, but existing code DLLMs still lag behind strong AR baselines under comparable budgets. We revisit this setting in a controlled study and introduce Stable-DiffCoder, a block diffusion code model that reuses the Seed-Coder architecture, data, and training pipeline. To enable efficient knowledge learning and stable training, we incorporate a block diffusion continual pretraining (CPT) stage enhanced by a tailored warmup and block-wise clipped noise schedule. Under the same data and architecture, Stable-DiffCoder overall outperforms its AR counterpart on a broad suite of code benchmarks. Moreover, relying only on the CPT and supervised fine-tuning stages, Stable-DiffCoder achieves stronger performance than a wide range of \~8B ARs and DLLMs, demonstrating that diffusion-based training can improve code modeling quality beyond AR training alone. Moreover, diffusion-based any-order modeling improves structured code modeling for editing and reasoning, and through data augmentation, benefits low-resource coding languages.
PDF400January 24, 2026