Stable-DiffCoder : Repousser les Frontières du Modèle de Langage de Grande Taille à Diffusion de Code

papers.abstract

Les modèles de langage basés sur la diffusion (DLLM) offrent une génération non séquentielle par blocs et une réutilisation des données plus riche que les modèles autorégressifs (AR), mais les DLLM existants pour le code restent inférieurs aux modèles AR de référence sous des budgets comparables. Nous revisitons ce cadre dans une étude contrôlée et présentons Stable-DiffCoder, un modèle de code à diffusion par blocs qui réutilise l'architecture, les données et le pipeline d'entraînement de Seed-Coder. Pour permettre un apprentissage efficace des connaissances et un entraînement stable, nous intégrons une phase de pré-entraînement continu (CPT) par diffusion de blocs, améliorée par une période de chauffage adaptée et un plan de bruit écrétré par blocs. Avec les mêmes données et architecture, Stable-DiffCoder surpasse globalement son homologue AR sur un large éventail de benchmarks de code. De plus, en s'appuyant uniquement sur les phases de CPT et de réglage fin supervisé, Stable-DiffCoder obtient de meilleures performances qu'une large gamme de modèles AR et DLLM d'environ 8B, démontrant que l'entraînement par diffusion peut améliorer la qualité de modélisation du code au-delà de l'entraînement AR seul. Par ailleurs, la modélisation à ordre arbitraire basée sur la diffusion améliore la modélisation du code structuré pour l'édition et le raisonnement, et, grâce à l'augmentation des données, bénéficie aux langages de programmation peu dotés.

English

Diffusion-based language models (DLLMs) offer non-sequential, block-wise generation and richer data reuse compared to autoregressive (AR) models, but existing code DLLMs still lag behind strong AR baselines under comparable budgets. We revisit this setting in a controlled study and introduce Stable-DiffCoder, a block diffusion code model that reuses the Seed-Coder architecture, data, and training pipeline. To enable efficient knowledge learning and stable training, we incorporate a block diffusion continual pretraining (CPT) stage enhanced by a tailored warmup and block-wise clipped noise schedule. Under the same data and architecture, Stable-DiffCoder overall outperforms its AR counterpart on a broad suite of code benchmarks. Moreover, relying only on the CPT and supervised fine-tuning stages, Stable-DiffCoder achieves stronger performance than a wide range of \~8B ARs and DLLMs, demonstrating that diffusion-based training can improve code modeling quality beyond AR training alone. Moreover, diffusion-based any-order modeling improves structured code modeling for editing and reasoning, and through data augmentation, benefits low-resource coding languages.

Stable-DiffCoder : Repousser les Frontières du Modèle de Langage de Grande Taille à Diffusion de Code

Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

papers.abstract

Support