DeepSeek-Coder: 大規模言語モデルがプログラミングに出会うとき - コード知能の台頭
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence
January 25, 2024
著者: Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y. K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang
cs.AI
要旨
大規模言語モデルの急速な発展は、ソフトウェア開発におけるコードインテリジェンスに革命をもたらしました。しかし、クローズドソースモデルの優位性が広範な研究開発を制限してきました。この問題に対処するため、我々はDeepSeek-Coderシリーズを紹介します。これは1.3Bから33Bまでのサイズのオープンソースコードモデル群で、2兆トークンからスクラッチでトレーニングされています。これらのモデルは、高品質なプロジェクトレベルのコードコーパスで事前学習され、16Kウィンドウを用いた穴埋めタスクを採用することで、コード生成と埋め込みを強化しています。我々の広範な評価により、DeepSeek-Coderが複数のベンチマークにおいてオープンソースコードモデルの中で最先端の性能を達成するだけでなく、CodexやGPT-3.5などの既存のクローズドソースモデルを凌駕することが実証されました。さらに、DeepSeek-Coderモデルは、研究と無制限の商用利用を可能にする寛容なライセンスの下で提供されています。
English
The rapid development of large language models has revolutionized code
intelligence in software development. However, the predominance of
closed-source models has restricted extensive research and development. To
address this, we introduce the DeepSeek-Coder series, a range of open-source
code models with sizes from 1.3B to 33B, trained from scratch on 2 trillion
tokens. These models are pre-trained on a high-quality project-level code
corpus and employ a fill-in-the-blank task with a 16K window to enhance code
generation and infilling. Our extensive evaluations demonstrate that
DeepSeek-Coder not only achieves state-of-the-art performance among open-source
code models across multiple benchmarks but also surpasses existing
closed-source models like Codex and GPT-3.5. Furthermore, DeepSeek-Coder models
are under a permissive license that allows for both research and unrestricted
commercial use.