ChatPaper.aiChatPaper

DeepSeek-Coder: 大規模言語モデルがプログラミングに出会うとき - コード知能の台頭

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

January 25, 2024
著者: Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y. K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang
cs.AI

要旨

大規模言語モデルの急速な発展は、ソフトウェア開発におけるコードインテリジェンスに革命をもたらしました。しかし、クローズドソースモデルの優位性が広範な研究開発を制限してきました。この問題に対処するため、我々はDeepSeek-Coderシリーズを紹介します。これは1.3Bから33Bまでのサイズのオープンソースコードモデル群で、2兆トークンからスクラッチでトレーニングされています。これらのモデルは、高品質なプロジェクトレベルのコードコーパスで事前学習され、16Kウィンドウを用いた穴埋めタスクを採用することで、コード生成と埋め込みを強化しています。我々の広範な評価により、DeepSeek-Coderが複数のベンチマークにおいてオープンソースコードモデルの中で最先端の性能を達成するだけでなく、CodexやGPT-3.5などの既存のクローズドソースモデルを凌駕することが実証されました。さらに、DeepSeek-Coderモデルは、研究と無制限の商用利用を可能にする寛容なライセンスの下で提供されています。
English
The rapid development of large language models has revolutionized code intelligence in software development. However, the predominance of closed-source models has restricted extensive research and development. To address this, we introduce the DeepSeek-Coder series, a range of open-source code models with sizes from 1.3B to 33B, trained from scratch on 2 trillion tokens. These models are pre-trained on a high-quality project-level code corpus and employ a fill-in-the-blank task with a 16K window to enhance code generation and infilling. Our extensive evaluations demonstrate that DeepSeek-Coder not only achieves state-of-the-art performance among open-source code models across multiple benchmarks but also surpasses existing closed-source models like Codex and GPT-3.5. Furthermore, DeepSeek-Coder models are under a permissive license that allows for both research and unrestricted commercial use.
PDF634December 15, 2024