Stable-DiffCoder: Expandindo a Fronteira do Modelo de Linguagem Grande de Difusão de Código

Resumo

Os modelos de linguagem baseados em difusão (DLLMs) oferecem geração não sequencial, bloco a bloco, e reutilização de dados mais rica em comparação com modelos autoregressivos (AR), mas os DLLMs de código existentes ainda ficam atrás de fortes modelos AR de referência sob orçamentos comparáveis. Revisitamos este cenário num estudo controlado e introduzimos o Stable-DiffCoder, um modelo de difusão de blocos para código que reutiliza a arquitetura, os dados e o *pipeline* de treino do Seed-Coder. Para permitir uma aprendizagem de conhecimento eficiente e um treino estável, incorporamos uma fase de pré-treinamento contínuo (CPT) por difusão de blocos, aprimorada por um aquecimento personalizado e um cronograma de ruído cortado por blocos. Sob os mesmos dados e arquitetura, o Stable-DiffCoder supera globalmente a sua contraparte AR num vasto conjunto de *benchmarks* de código. Além disso, dependendo apenas das fases de CPT e *fine-tuning* supervisionado, o Stable-DiffCoder atinge um desempenho superior ao de uma ampla gama de modelos AR e DLLMs de ~8B, demonstrando que o treino baseado em difusão pode melhorar a qualidade da modelação de código para além do treino AR isolado. Adicionalmente, a modelação de ordem arbitrária baseada em difusão melhora a modelação estruturada de código para edição e raciocínio e, através da ampliação de dados, beneficia linguagens de programação com poucos recursos.

English

Diffusion-based language models (DLLMs) offer non-sequential, block-wise generation and richer data reuse compared to autoregressive (AR) models, but existing code DLLMs still lag behind strong AR baselines under comparable budgets. We revisit this setting in a controlled study and introduce Stable-DiffCoder, a block diffusion code model that reuses the Seed-Coder architecture, data, and training pipeline. To enable efficient knowledge learning and stable training, we incorporate a block diffusion continual pretraining (CPT) stage enhanced by a tailored warmup and block-wise clipped noise schedule. Under the same data and architecture, Stable-DiffCoder overall outperforms its AR counterpart on a broad suite of code benchmarks. Moreover, relying only on the CPT and supervised fine-tuning stages, Stable-DiffCoder achieves stronger performance than a wide range of \~8B ARs and DLLMs, demonstrating that diffusion-based training can improve code modeling quality beyond AR training alone. Moreover, diffusion-based any-order modeling improves structured code modeling for editing and reasoning, and through data augmentation, benefits low-resource coding languages.

Stable-DiffCoder: Expandindo a Fronteira do Modelo de Linguagem Grande de Difusão de Código

Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

Resumo

Support