ChatPaper.aiChatPaper

DeepSeek-Coder: Wanneer het Grote Taalmodel Programmeren Ontmoet – De Opkomst van Code-intelligentie

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

January 25, 2024
Auteurs: Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y. K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang
cs.AI

Samenvatting

De snelle ontwikkeling van grote taalmodel(len) heeft een revolutie teweeggebracht in code-intelligentie binnen softwareontwikkeling. Het overwicht van closed-source modellen heeft echter uitgebreid onderzoek en ontwikkeling beperkt. Om dit aan te pakken, introduceren we de DeepSeek-Coder-serie, een reeks open-source codemodellen met groottes van 1,3B tot 33B, getraind vanaf nul op 2 biljoen tokens. Deze modellen zijn voorgetraind op een hoogwaardig projectniveau codecorpus en maken gebruik van een invul-taak met een venster van 16K om codegeneratie en -invulling te verbeteren. Onze uitgebreide evaluaties tonen aan dat DeepSeek-Coder niet alleen state-of-the-art prestaties behaalt onder open-source codemodellen op meerdere benchmarks, maar ook bestaande closed-source modellen zoals Codex en GPT-3.5 overtreft. Bovendien vallen de DeepSeek-Coder-modellen onder een permissieve licentie die zowel onderzoek als onbeperkt commercieel gebruik mogelijk maakt.
English
The rapid development of large language models has revolutionized code intelligence in software development. However, the predominance of closed-source models has restricted extensive research and development. To address this, we introduce the DeepSeek-Coder series, a range of open-source code models with sizes from 1.3B to 33B, trained from scratch on 2 trillion tokens. These models are pre-trained on a high-quality project-level code corpus and employ a fill-in-the-blank task with a 16K window to enhance code generation and infilling. Our extensive evaluations demonstrate that DeepSeek-Coder not only achieves state-of-the-art performance among open-source code models across multiple benchmarks but also surpasses existing closed-source models like Codex and GPT-3.5. Furthermore, DeepSeek-Coder models are under a permissive license that allows for both research and unrestricted commercial use.
PDF704February 7, 2026