CoDA: Kodierung von LM durch Diffusionsanpassung
CoDA: Coding LM via Diffusion Adaptation
September 27, 2025
papers.authors: Haolin Chen, Shiyu Wang, Can Qin, Bo Pang, Zuxin Liu, Jielin Qiu, Jianguo Zhang, Yingbo Zhou, Zeyuan Chen, Ran Xu, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
cs.AI
papers.abstract
Diffusionssprachmodelle versprechen bidirektionale Kontext- und Infilling-Fähigkeiten, die autoregressive Codierer nicht bieten, doch praktische Systeme bleiben ressourcenintensiv. Wir stellen CoDA vor, einen 1,7-Milliarden-Parameter-Diffusionscodierer, der auf TPU mit einer vollständig quelloffenen Trainingspipeline trainiert wurde. CoDA kombiniert groß angelegtes Diffusions-Vortraining mit codezentriertem Mitteltraining und Instruktionsfeinabstimmung, wodurch eine konfidenzgesteuerte Stichprobenentnahme ermöglicht wird, die die Inferenzlatenz wettbewerbsfähig hält. Auf Humaneval, MBPP und EvalPlus übertrifft oder erreicht CoDA-1.7B-Instruct Diffusionsmodelle mit bis zu 7 Milliarden Parametern. Unsere Veröffentlichung umfasst Modellcheckpoints, Evaluationswerkzeuge und TPU-Trainingspipelines, um die Forschung an leichtgewichtigen, diffusionsbasierten Codierungsassistenten zu beschleunigen.
English
Diffusion language models promise bidirectional context and infilling
capabilities that autoregressive coders lack, yet practical systems remain
heavyweight. We introduce CoDA, a 1.7B-parameter diffusion coder trained on TPU
with a fully open-source training pipeline. CoDA pairs large-scale diffusion
pre-training with code-centric mid-training and instruction tuning, enabling
confidence-guided sampling that keeps inference latency competitive. On
Humaneval, MBPP, and EvalPlus, CoDA-1.7B-Instruct matches or surpasses
diffusion models up to 7B parameters. Our release includes model checkpoints,
evaluation harnesses, and TPU training pipelines to accelerate research on
lightweight diffusion-based coding assistants.