ChatPaper.aiChatPaper

DeepSeek-Coder: 대형 언어 모델이 프로그래밍을 만날 때 - 코드 인텔리전스의 부상

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

January 25, 2024
저자: Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y. K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang
cs.AI

초록

대규모 언어 모델의 급속한 발전은 소프트웨어 개발 분야의 코드 인텔리전스를 혁신적으로 변화시켰습니다. 그러나 폐쇄형 모델의 우세로 인해 광범위한 연구와 개발이 제한되어 왔습니다. 이를 해결하기 위해, 우리는 1.3B에서 33B 크기의 오픈소스 코드 모델 시리즈인 DeepSeek-Coder를 소개합니다. 이 모델들은 2조 개의 토큰으로 처음부터 학습되었으며, 고품질 프로젝트 수준의 코드 코퍼스를 기반으로 사전 학습되었습니다. 또한 16K 윈도우를 사용한 빈칸 채우기 작업을 통해 코드 생성과 삽입 능력을 향상시켰습니다. 광범위한 평가를 통해 DeepSeek-Coder는 여러 벤치마크에서 오픈소스 코드 모델 중 최첨단 성능을 달성할 뿐만 아니라, Codex 및 GPT-3.5와 같은 기존의 폐쇄형 모델을 능가하는 것으로 나타났습니다. 더불어, DeepSeek-Coder 모델들은 연구와 제한 없는 상업적 사용을 모두 허용하는 허가형 라이선스 하에 있습니다.
English
The rapid development of large language models has revolutionized code intelligence in software development. However, the predominance of closed-source models has restricted extensive research and development. To address this, we introduce the DeepSeek-Coder series, a range of open-source code models with sizes from 1.3B to 33B, trained from scratch on 2 trillion tokens. These models are pre-trained on a high-quality project-level code corpus and employ a fill-in-the-blank task with a 16K window to enhance code generation and infilling. Our extensive evaluations demonstrate that DeepSeek-Coder not only achieves state-of-the-art performance among open-source code models across multiple benchmarks but also surpasses existing closed-source models like Codex and GPT-3.5. Furthermore, DeepSeek-Coder models are under a permissive license that allows for both research and unrestricted commercial use.
PDF634December 15, 2024