Stable-DiffCoder: На переднем рубеже диффузионных больших языковых моделей для генерации кода

Аннотация

Диффузионные языковые модели (DLLM) обеспечивают не последовательное, а блочное генерирование и более интенсивное повторное использование данных по сравнению с авторегрессионными (AR) моделями, однако существующие кодовые DLLM по-прежнему отстают от сильных AR-аналогов при сопоставимых вычислительных бюджетах. Мы возвращаемся к этой проблеме в рамках контролируемого исследования и представляем Stable-DiffCoder — блочную диффузионную модель для генерации кода, которая повторяет архитектуру Seed-Coder, использует те же данные и конвейер обучения. Для обеспечения эффективного усвоения знаний и стабильного обучения мы внедряем этап непрерывного предварительного обучения (CPT) на основе блочной диффузии, усиленный специально подобранным прогревом и блочным ограниченным шумовым расписанием. При одинаковых данных и архитектуре Stable-DiffCoder в целом превосходит свой AR-аналог по широкому набору бенчмарков для оценки генерации кода. Более того, используя только этапы CPT и контролируемой тонкой настройки, Stable-DiffCoder демонстрирует более высокую производительность, чем широкий спектр AR- и DLLM-моделей размером около 8B параметров, что подтверждает, что обучение на основе диффузии может улучшить качество моделирования кода по сравнению с исключительно AR-обучением. Кроме того, диффузионное моделирование в произвольном порядке улучшает структурированное моделирование кода для задач редактирования и логического вывода, а благодаря дополнению данных приносит пользу для маломощных языков программирования.

English

Diffusion-based language models (DLLMs) offer non-sequential, block-wise generation and richer data reuse compared to autoregressive (AR) models, but existing code DLLMs still lag behind strong AR baselines under comparable budgets. We revisit this setting in a controlled study and introduce Stable-DiffCoder, a block diffusion code model that reuses the Seed-Coder architecture, data, and training pipeline. To enable efficient knowledge learning and stable training, we incorporate a block diffusion continual pretraining (CPT) stage enhanced by a tailored warmup and block-wise clipped noise schedule. Under the same data and architecture, Stable-DiffCoder overall outperforms its AR counterpart on a broad suite of code benchmarks. Moreover, relying only on the CPT and supervised fine-tuning stages, Stable-DiffCoder achieves stronger performance than a wide range of \~8B ARs and DLLMs, demonstrating that diffusion-based training can improve code modeling quality beyond AR training alone. Moreover, diffusion-based any-order modeling improves structured code modeling for editing and reasoning, and through data augmentation, benefits low-resource coding languages.

Stable-DiffCoder: На переднем рубеже диффузионных больших языковых моделей для генерации кода

Stable-DiffCoder: Pushing the Frontier of Code Diffusion Large Language Model

Аннотация

Support