ChatPaper.aiChatPaper

DeepSeek-Coder-V2: Überwindung der Barriere geschlossener Modelle in der Code-Intelligenz

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

June 17, 2024
Autoren: DeepSeek-AI, Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang, Peiyi Wang, Runxin Xu, Y. Wu, Yukun Li, Huazuo Gao, Shirong Ma, Wangding Zeng, Xiao Bi, Zihui Gu, Hanwei Xu, Damai Dai, Kai Dong, Liyue Zhang, Yishi Piao, Zhibin Gou, Zhenda Xie, Zhewen Hao, Bingxuan Wang, Junxiao Song, Deli Chen, Xin Xie, Kang Guan, Yuxiang You, Aixin Liu, Qiushi Du, Wenjun Gao, Xuan Lu, Qinyu Chen, Yaohui Wang, Chengqi Deng, Jiashi Li, Chenggang Zhao, Chong Ruan, Fuli Luo, Wenfeng Liang
cs.AI

Zusammenfassung

Wir präsentieren DeepSeek-Coder-V2, ein Open-Source-Sprachmodell für Code auf Basis eines Mixture-of-Experts (MoE), das eine Leistung erzielt, die mit GPT4-Turbo in codespezifischen Aufgaben vergleichbar ist. Speziell wurde DeepSeek-Coder-V2 weiter vorab trainiert, ausgehend von einem Zwischen-Checkpoint von DeepSeek-V2, mit zusätzlichen 6 Billionen Tokens. Durch dieses fortgesetzte Vorab-Training verbessert DeepSeek-Coder-V2 wesentlich die Kodier- und mathematischen Denkfähigkeiten von DeepSeek-V2, während es eine vergleichbare Leistung in allgemeinen Sprachaufgaben beibehält. Im Vergleich zu DeepSeek-Coder-33B zeigt DeepSeek-Coder-V2 signifikante Fortschritte in verschiedenen Aspekten von codebezogenen Aufgaben sowie Denk- und allgemeinen Fähigkeiten. Darüber hinaus erweitert DeepSeek-Coder-V2 die Unterstützung für Programmiersprachen von 86 auf 338 und verlängert die Kontextlänge von 16K auf 128K. In standardisierten Benchmark-Evaluationen erzielt DeepSeek-Coder-V2 eine überlegene Leistung im Vergleich zu Closed-Source-Modellen wie GPT4-Turbo, Claude 3 Opus und Gemini 1.5 Pro in Kodier- und Mathematik-Benchmarks.
English
We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek-Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder-V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.

Summary

AI-Generated Summary

PDF643December 4, 2024