DeepSeek-Coder-V2: Rompendo a Barreira dos Modelos de Código Fechado em Inteligência de Código
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence
June 17, 2024
Autores: DeepSeek-AI, Qihao Zhu, Daya Guo, Zhihong Shao, Dejian Yang, Peiyi Wang, Runxin Xu, Y. Wu, Yukun Li, Huazuo Gao, Shirong Ma, Wangding Zeng, Xiao Bi, Zihui Gu, Hanwei Xu, Damai Dai, Kai Dong, Liyue Zhang, Yishi Piao, Zhibin Gou, Zhenda Xie, Zhewen Hao, Bingxuan Wang, Junxiao Song, Deli Chen, Xin Xie, Kang Guan, Yuxiang You, Aixin Liu, Qiushi Du, Wenjun Gao, Xuan Lu, Qinyu Chen, Yaohui Wang, Chengqi Deng, Jiashi Li, Chenggang Zhao, Chong Ruan, Fuli Luo, Wenfeng Liang
cs.AI
Resumo
Apresentamos o DeepSeek-Coder-V2, um modelo de linguagem de código de Mistura de Especialistas (MoE) de código aberto que alcança desempenho comparável ao GPT4-Turbo em tarefas específicas de código. Especificamente, o DeepSeek-Coder-V2 é pré-treinado adicionalmente a partir de um ponto de verificação intermediário do DeepSeek-V2 com mais 6 trilhões de tokens. Por meio desse pré-treinamento contínuo, o DeepSeek-Coder-V2 aprimora substancialmente as capacidades de codificação e raciocínio matemático do DeepSeek-V2, mantendo desempenho comparável em tarefas gerais de linguagem. Em comparação com o DeepSeek-Coder-33B, o DeepSeek-Coder-V2 demonstra avanços significativos em vários aspectos de tarefas relacionadas a código, bem como em raciocínio e capacidades gerais. Além disso, o DeepSeek-Coder-V2 amplia seu suporte para linguagens de programação de 86 para 338, enquanto estende o comprimento de contexto de 16K para 128K. Em avaliações de benchmarks padrão, o DeepSeek-Coder-V2 alcança desempenho superior em comparação com modelos de código fechado, como GPT4-Turbo, Claude 3 Opus e Gemini 1.5 Pro, em benchmarks de codificação e matemática.
English
We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code
language model that achieves performance comparable to GPT4-Turbo in
code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained
from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion
tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially
enhances the coding and mathematical reasoning capabilities of DeepSeek-V2,
while maintaining comparable performance in general language tasks. Compared to
DeepSeek-Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in
various aspects of code-related tasks, as well as reasoning and general
capabilities. Additionally, DeepSeek-Coder-V2 expands its support for
programming languages from 86 to 338, while extending the context length from
16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves
superior performance compared to closed-source models such as GPT4-Turbo,
Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.