DeepSeek-Coder: Wanneer het Grote Taalmodel Programmeren Ontmoet – De Opkomst van Code-intelligentie
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence
January 25, 2024
Auteurs: Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y. K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang
cs.AI
Samenvatting
De snelle ontwikkeling van grote taalmodel(len) heeft een revolutie teweeggebracht in code-intelligentie binnen softwareontwikkeling. Het overwicht van closed-source modellen heeft echter uitgebreid onderzoek en ontwikkeling beperkt. Om dit aan te pakken, introduceren we de DeepSeek-Coder-serie, een reeks open-source codemodellen met groottes van 1,3B tot 33B, getraind vanaf nul op 2 biljoen tokens. Deze modellen zijn voorgetraind op een hoogwaardig projectniveau codecorpus en maken gebruik van een invul-taak met een venster van 16K om codegeneratie en -invulling te verbeteren. Onze uitgebreide evaluaties tonen aan dat DeepSeek-Coder niet alleen state-of-the-art prestaties behaalt onder open-source codemodellen op meerdere benchmarks, maar ook bestaande closed-source modellen zoals Codex en GPT-3.5 overtreft. Bovendien vallen de DeepSeek-Coder-modellen onder een permissieve licentie die zowel onderzoek als onbeperkt commercieel gebruik mogelijk maakt.
English
The rapid development of large language models has revolutionized code
intelligence in software development. However, the predominance of
closed-source models has restricted extensive research and development. To
address this, we introduce the DeepSeek-Coder series, a range of open-source
code models with sizes from 1.3B to 33B, trained from scratch on 2 trillion
tokens. These models are pre-trained on a high-quality project-level code
corpus and employ a fill-in-the-blank task with a 16K window to enhance code
generation and infilling. Our extensive evaluations demonstrate that
DeepSeek-Coder not only achieves state-of-the-art performance among open-source
code models across multiple benchmarks but also surpasses existing
closed-source models like Codex and GPT-3.5. Furthermore, DeepSeek-Coder models
are under a permissive license that allows for both research and unrestricted
commercial use.