ChatPaper.aiChatPaper

DeepSeek-Coder-V2 : Franchir la barrière des modèles propriétaires en intelligence du code

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

June 17, 2024
Auteurs: DeepSeek-AI, Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang, Peiyi Wang, Runxin Xu, Y. Wu, Yukun Li, Huazuo Gao, Shirong Ma, Wangding Zeng, Xiao Bi, Zihui Gu, Hanwei Xu, Damai Dai, Kai Dong, Liyue Zhang, Yishi Piao, Zhibin Gou, Zhenda Xie, Zhewen Hao, Bingxuan Wang, Junxiao Song, Deli Chen, Xin Xie, Kang Guan, Yuxiang You, Aixin Liu, Qiushi Du, Wenjun Gao, Xuan Lu, Qinyu Chen, Yaohui Wang, Chengqi Deng, Jiashi Li, Chenggang Zhao, Chong Ruan, Fuli Luo, Wenfeng Liang
cs.AI

Résumé

Nous présentons DeepSeek-Coder-V2, un modèle de langage de code open-source basé sur une architecture Mixture-of-Experts (MoE) qui atteint des performances comparables à GPT4-Turbo dans des tâches spécifiques au code. Plus précisément, DeepSeek-Coder-V2 est pré-entraîné à partir d'un point de contrôle intermédiaire de DeepSeek-V2 avec 6 000 milliards de tokens supplémentaires. Grâce à ce pré-entraînement continu, DeepSeek-Coder-V2 améliore considérablement les capacités de codage et de raisonnement mathématique de DeepSeek-V2, tout en maintenant des performances comparables dans les tâches de langage général. Par rapport à DeepSeek-Coder-33B, DeepSeek-Coder-V2 démontre des avancées significatives dans divers aspects des tâches liées au code, ainsi que dans les capacités de raisonnement et générales. De plus, DeepSeek-Coder-V2 étend son support des langages de programmation de 86 à 338, tout en augmentant la longueur de contexte de 16K à 128K. Dans les évaluations de benchmarks standard, DeepSeek-Coder-V2 obtient des performances supérieures par rapport aux modèles propriétaires tels que GPT4-Turbo, Claude 3 Opus et Gemini 1.5 Pro dans les benchmarks de codage et de mathématiques.
English
We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek-Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder-V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.

Summary

AI-Generated Summary

PDF643December 4, 2024