DeepSeek-Coder: Quando il Modello Linguistico di Grande Scala Incontra la Programmazione – L’Ascesa dell’Intelligenza del Codice

Abstract

Il rapido sviluppo di modelli linguistici di grandi dimensioni ha rivoluzionato l'intelligenza del codice nello sviluppo software. Tuttavia, la predominanza di modelli closed-source ha limitato la ricerca e lo sviluppo su larga scala. Per affrontare questa problematica, presentiamo la serie DeepSeek-Coder, una gamma di modelli di codice open-source con dimensioni che vanno da 1,3B a 33B, addestrati da zero su 2 trilioni di token. Questi modelli sono pre-addestrati su un corpus di codice di alta qualità a livello di progetto e impiegano un'attività di riempimento degli spazi vuoti con una finestra di 16K per migliorare la generazione e il completamento del codice. Le nostre valutazioni estensive dimostrano che DeepSeek-Coder non solo raggiunge prestazioni all'avanguardia tra i modelli di codice open-source su più benchmark, ma supera anche i modelli closed-source esistenti come Codex e GPT-3.5. Inoltre, i modelli DeepSeek-Coder sono rilasciati con una licenza permissiva che consente sia la ricerca che l'uso commerciale senza restrizioni.

English

The rapid development of large language models has revolutionized code intelligence in software development. However, the predominance of closed-source models has restricted extensive research and development. To address this, we introduce the DeepSeek-Coder series, a range of open-source code models with sizes from 1.3B to 33B, trained from scratch on 2 trillion tokens. These models are pre-trained on a high-quality project-level code corpus and employ a fill-in-the-blank task with a 16K window to enhance code generation and infilling. Our extensive evaluations demonstrate that DeepSeek-Coder not only achieves state-of-the-art performance among open-source code models across multiple benchmarks but also surpasses existing closed-source models like Codex and GPT-3.5. Furthermore, DeepSeek-Coder models are under a permissive license that allows for both research and unrestricted commercial use.

DeepSeek-Coder: Quando il Modello Linguistico di Grande Scala Incontra la Programmazione – L’Ascesa dell’Intelligenza del Codice

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Abstract

Support