DeepSeek-Coder-V2: 코드 인텔리전스 분야에서 폐쇄형 모델의 벽을 넘어서다
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
June 17, 2024
저자: DeepSeek-AI, Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang, Peiyi Wang, Runxin Xu, Y. Wu, Yukun Li, Huazuo Gao, Shirong Ma, Wangding Zeng, Xiao Bi, Zihui Gu, Hanwei Xu, Damai Dai, Kai Dong, Liyue Zhang, Yishi Piao, Zhibin Gou, Zhenda Xie, Zhewen Hao, Bingxuan Wang, Junxiao Song, Deli Chen, Xin Xie, Kang Guan, Yuxiang You, Aixin Liu, Qiushi Du, Wenjun Gao, Xuan Lu, Qinyu Chen, Yaohui Wang, Chengqi Deng, Jiashi Li, Chenggang Zhao, Chong Ruan, Fuli Luo, Wenfeng Liang
cs.AI
초록
우리는 GPT4-Turbo와 비슷한 성능을 보이는 오픈소스 Mixture-of-Experts(MoE) 코드 언어 모델인 DeepSeek-Coder-V2를 소개합니다. 구체적으로, DeepSeek-Coder-V2는 DeepSeek-V2의 중간 체크포인트에서 추가로 6조 토큰을 사용해 사전 학습을 더 진행한 모델입니다. 이러한 지속적인 사전 학습을 통해 DeepSeek-Coder-V2는 DeepSeek-V2의 코딩 및 수학적 추론 능력을 크게 향상시키면서도 일반 언어 작업에서도 비슷한 성능을 유지합니다. DeepSeek-Coder-33B와 비교했을 때, DeepSeek-Coder-V2는 코드 관련 작업뿐만 아니라 추론 및 일반 능력에서도 상당한 발전을 보여줍니다. 또한, DeepSeek-Coder-V2는 지원하는 프로그래밍 언어를 86개에서 338개로 확장하고, 컨텍스트 길이를 16K에서 128K로 늘렸습니다. 표준 벤치마크 평가에서 DeepSeek-Coder-V2는 GPT4-Turbo, Claude 3 Opus, Gemini 1.5 Pro와 같은 클로즈드 소스 모델보다 코딩 및 수학 벤치마크에서 우수한 성능을 달성했습니다.
English
We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code
language model that achieves performance comparable to GPT4-Turbo in
code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained
from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion
tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially
enhances the coding and mathematical reasoning capabilities of DeepSeek-V2,
while maintaining comparable performance in general language tasks. Compared to
DeepSeek-Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in
various aspects of code-related tasks, as well as reasoning and general
capabilities. Additionally, DeepSeek-Coder-V2 expands its support for
programming languages from 86 to 338, while extending the context length from
16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves
superior performance compared to closed-source models such as GPT4-Turbo,
Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.Summary
AI-Generated Summary