Stable-DiffCoder: Avanzando en la Frontera del Modelo de Lenguaje Grande de Difusión de Código

Resumen

Los modelos de lenguaje basados en difusión (DLLMs) ofrecen generación no secuencial por bloques y una reutilización de datos más rica en comparación con los modelos autorregresivos (AR), pero los DLLMs de código existentes aún se quedan por detrás de las sólidas bases de referencia AR bajo presupuestos comparables. Revisitamos este escenario en un estudio controlado e introducimos Stable-DiffCoder, un modelo de código de difusión por bloques que reutiliza la arquitectura, los datos y el pipeline de entrenamiento de Seed-Coder. Para permitir un aprendizaje eficiente del conocimiento y un entrenamiento estable, incorporamos una etapa de preentrenamiento continuo (CPT) de difusión por bloques mejorada con una fase de calentamiento personalizada y un programa de ruido recortado por bloques. Con los mismos datos y arquitectura, Stable-DiffCoder supera en general a su contraparte AR en un amplio conjunto de benchmarks de código. Además, confiando únicamente en las etapas de CPT y ajuste fino supervisado, Stable-DiffCoder logra un rendimiento superior al de una amplia gama de modelos AR y DLLMs de ~8B, demostrando que el entrenamiento basado en difusión puede mejorar la calidad del modelado de código más allá del entrenamiento AR por sí solo. Además, el modelado de cualquier orden basado en difusión mejora el modelado estructurado de código para edición y razonamiento, y, mediante la aumentación de datos, beneficia a los lenguajes de programación con bajos recursos.

English

Diffusion-based language models (DLLMs) offer non-sequential, block-wise generation and richer data reuse compared to autoregressive (AR) models, but existing code DLLMs still lag behind strong AR baselines under comparable budgets. We revisit this setting in a controlled study and introduce Stable-DiffCoder, a block diffusion code model that reuses the Seed-Coder architecture, data, and training pipeline. To enable efficient knowledge learning and stable training, we incorporate a block diffusion continual pretraining (CPT) stage enhanced by a tailored warmup and block-wise clipped noise schedule. Under the same data and architecture, Stable-DiffCoder overall outperforms its AR counterpart on a broad suite of code benchmarks. Moreover, relying only on the CPT and supervised fine-tuning stages, Stable-DiffCoder achieves stronger performance than a wide range of \~8B ARs and DLLMs, demonstrating that diffusion-based training can improve code modeling quality beyond AR training alone. Moreover, diffusion-based any-order modeling improves structured code modeling for editing and reasoning, and through data augmentation, benefits low-resource coding languages.