Stable-DiffCoder: Spingere Avanti le Frontiere dei Modelli Linguistici Large per la Diffusione del Codice

Abstract

I modelli linguistici basati su diffusione (DLLM) offrono una generazione non sequenziale, a blocchi, e un riutilizzo dei dati più ricco rispetto ai modelli autoregressivi (AR), ma gli attuali DLLM per codice rimangono ancora indietro rispetto a solidi baseline AR con budget comparabili. Rivalutiamo questo scenario in uno studio controllato e introduciamo Stable-DiffCoder, un modello di codice a diffusione di blocchi che riutilizza l'architettura, i dati e la pipeline di addestramento di Seed-Coder. Per abilitare un apprendimento efficiente della conoscenza e un addestramento stabile, incorporiamo una fase di pre-addestramento continuo (CPT) a diffusione di blocchi, potenziata da un riscaldamento personalizzato e da una pianificazione del rumore ritagliata per blocchi. A parità di dati e architettura, Stable-DiffCoder supera complessivamente la sua controparte AR su un'ampia suite di benchmark di codice. Inoltre, basandosi solo sulle fasi di CPT e fine-tuning supervisionato, Stable-DiffCoder raggiunge prestazioni più forti di un'ampia gamma di modelli AR e DLLM da ~8B, dimostrando che l'addestramento basato su diffusione può migliorare la qualità della modellazione del codice oltre il solo addestramento AR. Inoltre, la modellazione a ordine arbitrario basata su diffusione migliora la modellazione strutturata del codice per l'editing e il ragionamento e, attraverso l'aumento dei dati, avvantaggia i linguaggi di programmazione a risorse limitate.

English

Diffusion-based language models (DLLMs) offer non-sequential, block-wise generation and richer data reuse compared to autoregressive (AR) models, but existing code DLLMs still lag behind strong AR baselines under comparable budgets. We revisit this setting in a controlled study and introduce Stable-DiffCoder, a block diffusion code model that reuses the Seed-Coder architecture, data, and training pipeline. To enable efficient knowledge learning and stable training, we incorporate a block diffusion continual pretraining (CPT) stage enhanced by a tailored warmup and block-wise clipped noise schedule. Under the same data and architecture, Stable-DiffCoder overall outperforms its AR counterpart on a broad suite of code benchmarks. Moreover, relying only on the CPT and supervised fine-tuning stages, Stable-DiffCoder achieves stronger performance than a wide range of \~8B ARs and DLLMs, demonstrating that diffusion-based training can improve code modeling quality beyond AR training alone. Moreover, diffusion-based any-order modeling improves structured code modeling for editing and reasoning, and through data augmentation, benefits low-resource coding languages.

Stable-DiffCoder: Spingere Avanti le Frontiere dei Modelli Linguistici Large per la Diffusione del Codice

Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

Abstract

Support