DeepSeek-Coder-V2: Überwindung der Barriere geschlossener Modelle in der Code-Intelligenz

papers.abstract

Wir präsentieren DeepSeek-Coder-V2, ein Open-Source-Sprachmodell für Code auf Basis eines Mixture-of-Experts (MoE), das eine Leistung erzielt, die mit GPT4-Turbo in codespezifischen Aufgaben vergleichbar ist. Speziell wurde DeepSeek-Coder-V2 weiter vorab trainiert, ausgehend von einem Zwischen-Checkpoint von DeepSeek-V2, mit zusätzlichen 6 Billionen Tokens. Durch dieses fortgesetzte Vorab-Training verbessert DeepSeek-Coder-V2 wesentlich die Kodier- und mathematischen Denkfähigkeiten von DeepSeek-V2, während es eine vergleichbare Leistung in allgemeinen Sprachaufgaben beibehält. Im Vergleich zu DeepSeek-Coder-33B zeigt DeepSeek-Coder-V2 signifikante Fortschritte in verschiedenen Aspekten von codebezogenen Aufgaben sowie Denk- und allgemeinen Fähigkeiten. Darüber hinaus erweitert DeepSeek-Coder-V2 die Unterstützung für Programmiersprachen von 86 auf 338 und verlängert die Kontextlänge von 16K auf 128K. In standardisierten Benchmark-Evaluationen erzielt DeepSeek-Coder-V2 eine überlegene Leistung im Vergleich zu Closed-Source-Modellen wie GPT4-Turbo, Claude 3 Opus und Gemini 1.5 Pro in Kodier- und Mathematik-Benchmarks.

English

We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek-Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder-V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.

DeepSeek-Coder-V2: Überwindung der Barriere geschlossener Modelle in der Code-Intelligenz

DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence

papers.abstract

Support