DeepSeek-Coder: Quando il Modello Linguistico di Grande Scala Incontra la Programmazione – L’Ascesa dell’Intelligenza del Codice
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence
January 25, 2024
Autori: Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y. K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang
cs.AI
Abstract
Il rapido sviluppo di modelli linguistici di grandi dimensioni ha rivoluzionato l'intelligenza del codice nello sviluppo software. Tuttavia, la predominanza di modelli closed-source ha limitato la ricerca e lo sviluppo su larga scala. Per affrontare questa problematica, presentiamo la serie DeepSeek-Coder, una gamma di modelli di codice open-source con dimensioni che vanno da 1,3B a 33B, addestrati da zero su 2 trilioni di token. Questi modelli sono pre-addestrati su un corpus di codice di alta qualità a livello di progetto e impiegano un'attività di riempimento degli spazi vuoti con una finestra di 16K per migliorare la generazione e il completamento del codice. Le nostre valutazioni estensive dimostrano che DeepSeek-Coder non solo raggiunge prestazioni all'avanguardia tra i modelli di codice open-source su più benchmark, ma supera anche i modelli closed-source esistenti come Codex e GPT-3.5. Inoltre, i modelli DeepSeek-Coder sono rilasciati con una licenza permissiva che consente sia la ricerca che l'uso commerciale senza restrizioni.
English
The rapid development of large language models has revolutionized code
intelligence in software development. However, the predominance of
closed-source models has restricted extensive research and development. To
address this, we introduce the DeepSeek-Coder series, a range of open-source
code models with sizes from 1.3B to 33B, trained from scratch on 2 trillion
tokens. These models are pre-trained on a high-quality project-level code
corpus and employ a fill-in-the-blank task with a 16K window to enhance code
generation and infilling. Our extensive evaluations demonstrate that
DeepSeek-Coder not only achieves state-of-the-art performance among open-source
code models across multiple benchmarks but also surpasses existing
closed-source models like Codex and GPT-3.5. Furthermore, DeepSeek-Coder models
are under a permissive license that allows for both research and unrestricted
commercial use.