CoDA: 확산 적응을 통한 코딩 언어 모델
CoDA: Coding LM via Diffusion Adaptation
September 27, 2025
저자: Haolin Chen, Shiyu Wang, Can Qin, Bo Pang, Zuxin Liu, Jielin Qiu, Jianguo Zhang, Yingbo Zhou, Zeyuan Chen, Ran Xu, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
cs.AI
초록
확산 언어 모델은 자기회귀적 코더가 갖지 못한 양방향 컨텍스트와 중간 채우기 기능을 제공할 것으로 기대되지만, 실제 시스템은 여전히 무거운 편입니다. 우리는 TPU에서 훈련된 완전 오픈소스 훈련 파이프라인을 갖춘 1.7B 매개변수의 확산 코더인 CoDA를 소개합니다. CoDA는 대규모 확산 사전 훈련과 코드 중심의 중간 훈련 및 지시 튜닝을 결합하여, 추론 지연 시간을 경쟁력 있게 유지하는 신뢰도 기반 샘플링을 가능하게 합니다. Humaneval, MBPP, EvalPlus에서 CoDA-1.7B-Instruct는 7B 매개변수까지의 확산 모델을 능가하거나 동등한 성능을 보입니다. 우리의 릴리스에는 모델 체크포인트, 평가 도구 및 TPU 훈련 파이프라인이 포함되어 있어, 경량 확산 기반 코딩 보조 연구를 가속화할 수 있습니다.
English
Diffusion language models promise bidirectional context and infilling
capabilities that autoregressive coders lack, yet practical systems remain
heavyweight. We introduce CoDA, a 1.7B-parameter diffusion coder trained on TPU
with a fully open-source training pipeline. CoDA pairs large-scale diffusion
pre-training with code-centric mid-training and instruction tuning, enabling
confidence-guided sampling that keeps inference latency competitive. On
Humaneval, MBPP, and EvalPlus, CoDA-1.7B-Instruct matches or surpasses
diffusion models up to 7B parameters. Our release includes model checkpoints,
evaluation harnesses, and TPU training pipelines to accelerate research on
lightweight diffusion-based coding assistants.