ChatPaper.aiChatPaper

CoDA: Adattamento del Modello Linguistico tramite Diffusione

CoDA: Coding LM via Diffusion Adaptation

September 27, 2025
Autori: Haolin Chen, Shiyu Wang, Can Qin, Bo Pang, Zuxin Liu, Jielin Qiu, Jianguo Zhang, Yingbo Zhou, Zeyuan Chen, Ran Xu, Shelby Heinecke, Silvio Savarese, Caiming Xiong, Huan Wang, Weiran Yao
cs.AI

Abstract

I modelli linguistici di diffusione promettono capacità di contesto bidirezionale e di riempimento che i codificatori autoregressivi non possiedono, tuttavia i sistemi pratici rimangono ancora pesanti. Introduciamo CoDA, un codificatore di diffusione da 1,7 miliardi di parametri addestrato su TPU con una pipeline di training completamente open-source. CoDA combina un pre-training su larga scala di diffusione con un mid-training incentrato sul codice e un tuning basato su istruzioni, abilitando un campionamento guidato dalla confidenza che mantiene competitiva la latenza di inferenza. Su Humaneval, MBPP ed EvalPlus, CoDA-1.7B-Instruct eguaglia o supera i modelli di diffusione fino a 7 miliardi di parametri. La nostra release include checkpoint del modello, strumenti di valutazione e pipeline di training su TPU per accelerare la ricerca su assistenti di codifica leggeri basati sulla diffusione.
English
Diffusion language models promise bidirectional context and infilling capabilities that autoregressive coders lack, yet practical systems remain heavyweight. We introduce CoDA, a 1.7B-parameter diffusion coder trained on TPU with a fully open-source training pipeline. CoDA pairs large-scale diffusion pre-training with code-centric mid-training and instruction tuning, enabling confidence-guided sampling that keeps inference latency competitive. On Humaneval, MBPP, and EvalPlus, CoDA-1.7B-Instruct matches or surpasses diffusion models up to 7B parameters. Our release includes model checkpoints, evaluation harnesses, and TPU training pipelines to accelerate research on lightweight diffusion-based coding assistants.
PDF412October 8, 2025