Stable-DiffCoder: Het Grensgebied Verleggen van Code-Diffusie Grote Taalmodellen

Samenvatting

Diffusiegebaseerde taalmodelen (DLLM's) bieden niet-sequentiële, bloksgewijze generatie en een rijkere gegevenshergebruik in vergelijking met autoregressieve (AR) modellen, maar bestaande code-DLLM's blijven achter bij sterke AR-basislijnen onder vergelijkbare budgetten. Wij hernemen deze instelling in een gecontroleerde studie en introduceren Stable-DiffCoder, een blokdiffusie-codemodel dat de Seed-Coder-architectuur, gegevens en trainingspijplijn hergebruikt. Om efficiënt kennisleren en stabiele training mogelijk te maken, integreren we een blokdiffusie voortgezette pretraining (CPT)-fase, versterkt door een op maat gemaakte opwarmfase en een bloksgewijs afgeknipt ruisschema. Onder dezelfde gegevens en architectuur presteert Stable-DiffCoder over het algemeen beter dan zijn AR-tegenhanger op een breed scala aan codebenchmarks. Bovendien bereikt Stable-DiffCoder, uitsluitend vertrouwend op de CPT- en supervised fine-tuning-fases, sterkere prestaties dan een breed scala aan ~8B AR's en DLLM's, wat aantoont dat diffusiegebaseerde training de kwaliteit van codemodellering kan verbeteren beyond alleen AR-training. Bovendien verbetert diffusiegebaseerde modellering in willekeurige volgorde de gestructureerde codemodellering voor bewerking en redenering, en komt het via gegevensaugmentatie ten goede aan codeertalen met weinig middelen.

English

Diffusion-based language models (DLLMs) offer non-sequential, block-wise generation and richer data reuse compared to autoregressive (AR) models, but existing code DLLMs still lag behind strong AR baselines under comparable budgets. We revisit this setting in a controlled study and introduce Stable-DiffCoder, a block diffusion code model that reuses the Seed-Coder architecture, data, and training pipeline. To enable efficient knowledge learning and stable training, we incorporate a block diffusion continual pretraining (CPT) stage enhanced by a tailored warmup and block-wise clipped noise schedule. Under the same data and architecture, Stable-DiffCoder overall outperforms its AR counterpart on a broad suite of code benchmarks. Moreover, relying only on the CPT and supervised fine-tuning stages, Stable-DiffCoder achieves stronger performance than a wide range of \~8B ARs and DLLMs, demonstrating that diffusion-based training can improve code modeling quality beyond AR training alone. Moreover, diffusion-based any-order modeling improves structured code modeling for editing and reasoning, and through data augmentation, benefits low-resource coding languages.

Stable-DiffCoder: Het Grensgebied Verleggen van Code-Diffusie Grote Taalmodellen

Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

Samenvatting

Support