Stable-DiffCoder: An der Spitze von Code-Diffusions-Modellen für große Sprachmodelle

papers.abstract

Diffusionsbasierte Sprachmodelle (DLLMs) ermöglichen im Vergleich zu autoregressiven (AR) Modellen eine nicht-sequenzielle, blockweise Generierung und eine umfangreichere Datenwiederverwendung. Dennoch liegen bestehende Code-DLLMs unter vergleichbaren Budgets immer noch hinter starken AR-Baselines zurück. Wir untersuchen diesen Ansatz in einer kontrollierten Studie erneut und stellen Stable-DiffCoder vor, ein Block-Diffusions-Codemodell, das die Seed-Coder-Architektur, -Daten und -Trainingspipeline wiederverwendet. Um effizientes Wissenslernen und stabiles Training zu ermöglichen, integrieren wir eine kontinuierliche Vortrainingsphase (CPT) für Block-Diffusion, die durch einen maßgeschneiderten Warmup und einen blockweise beschnittenen Noise-Schedule optimiert wird. Unter Verwendung derselben Daten und Architektur übertrifft Stable-DiffCoder insgesamt sein AR-Pendant in einer breiten Suite von Code-Benchmarks. Darüber hinaus erzielt Stable-DiffCoder allein durch die CPT- und überwachte Feintuning-Phasen eine stärkere Leistung als eine Vielzahl von ~8B ARs und DLLMs, was demonstriert, dass diffusionsbasiertes Training die Qualität der Codemodellierung über reines AR-Training hinaus verbessern kann. Zudem verbessert die diffusionsbasierte Modellierung in beliebiger Reihenfolge die strukturierte Codemodellierung für Bearbeitungs- und Reasoning-Aufgaben und kommt durch Datenanreicherung ressourcenarmen Programmiersprachen zugute.

English

Diffusion-based language models (DLLMs) offer non-sequential, block-wise generation and richer data reuse compared to autoregressive (AR) models, but existing code DLLMs still lag behind strong AR baselines under comparable budgets. We revisit this setting in a controlled study and introduce Stable-DiffCoder, a block diffusion code model that reuses the Seed-Coder architecture, data, and training pipeline. To enable efficient knowledge learning and stable training, we incorporate a block diffusion continual pretraining (CPT) stage enhanced by a tailored warmup and block-wise clipped noise schedule. Under the same data and architecture, Stable-DiffCoder overall outperforms its AR counterpart on a broad suite of code benchmarks. Moreover, relying only on the CPT and supervised fine-tuning stages, Stable-DiffCoder achieves stronger performance than a wide range of \~8B ARs and DLLMs, demonstrating that diffusion-based training can improve code modeling quality beyond AR training alone. Moreover, diffusion-based any-order modeling improves structured code modeling for editing and reasoning, and through data augmentation, benefits low-resource coding languages.

Stable-DiffCoder: An der Spitze von Code-Diffusions-Modellen für große Sprachmodelle

Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

papers.abstract

Support