ChatPaper.aiChatPaper

CoDA: Адаптация языковой модели через диффузионное кодирование

CoDA: Coding LM via Diffusion Adaptation

September 27, 2025
Авторы: Haolin Chen, Shiyu Wang, Can Qin, Bo Pang, Zuxin Liu, Jielin Qiu, Jianguo Zhang, Yingbo Zhou, Zeyuan Chen, Ran Xu, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
cs.AI

Аннотация

Диффузионные языковые модели обещают двусторонний контекст и возможности заполнения пробелов, которых не хватает авторегрессивным кодировщикам, однако практические системы остаются ресурсоемкими. Мы представляем CoDA — диффузионный кодировщик с 1,7 миллиардами параметров, обученный на TPU с полностью открытым конвейером обучения. CoDA сочетает масштабное диффузионное предварительное обучение с промежуточным обучением, ориентированным на код, и настройкой по инструкциям, что позволяет использовать выборку с учетом уверенности, сохраняя конкурентоспособную задержку при выводе. На наборах данных Humaneval, MBPP и EvalPlus CoDA-1.7B-Instruct соответствует или превосходит диффузионные модели с параметрами до 7 миллиардов. Наш релиз включает контрольные точки модели, инструменты для оценки и конвейеры обучения на TPU, чтобы ускорить исследования в области легковесных диффузионных помощников для кодирования.
English
Diffusion language models promise bidirectional context and infilling capabilities that autoregressive coders lack, yet practical systems remain heavyweight. We introduce CoDA, a 1.7B-parameter diffusion coder trained on TPU with a fully open-source training pipeline. CoDA pairs large-scale diffusion pre-training with code-centric mid-training and instruction tuning, enabling confidence-guided sampling that keeps inference latency competitive. On Humaneval, MBPP, and EvalPlus, CoDA-1.7B-Instruct matches or surpasses diffusion models up to 7B parameters. Our release includes model checkpoints, evaluation harnesses, and TPU training pipelines to accelerate research on lightweight diffusion-based coding assistants.
PDF342October 8, 2025