DeepSeek-Coder: Когда большая языковая модель встречается с программированием — Рассвет интеллектуальной обработки кода

Аннотация

Быстрое развитие крупных языковых моделей произвело революцию в области анализа кода в разработке программного обеспечения. Однако доминирование моделей с закрытым исходным кодом ограничило масштабные исследования и разработки. Чтобы решить эту проблему, мы представляем серию DeepSeek-Coder — набор моделей для работы с кодом с открытым исходным кодом, размер которых варьируется от 1,3 млрд до 33 млрд параметров, обученных с нуля на 2 триллионах токенов. Эти модели предварительно обучаются на высококачественном корпусе кода на уровне проектов и используют задачу заполнения пропусков с окном в 16 тыс. токенов для улучшения генерации и дополнения кода. Наши обширные оценки показывают, что DeepSeek-Coder не только достигает наилучших результатов среди моделей с открытым исходным кодом на множестве тестов, но и превосходит существующие модели с закрытым исходным кодом, такие как Codex и GPT-3.5. Кроме того, модели DeepSeek-Coder распространяются под разрешительной лицензией, которая позволяет использовать их как для исследований, так и для коммерческого применения без ограничений.

English

The rapid development of large language models has revolutionized code intelligence in software development. However, the predominance of closed-source models has restricted extensive research and development. To address this, we introduce the DeepSeek-Coder series, a range of open-source code models with sizes from 1.3B to 33B, trained from scratch on 2 trillion tokens. These models are pre-trained on a high-quality project-level code corpus and employ a fill-in-the-blank task with a 16K window to enhance code generation and infilling. Our extensive evaluations demonstrate that DeepSeek-Coder not only achieves state-of-the-art performance among open-source code models across multiple benchmarks but also surpasses existing closed-source models like Codex and GPT-3.5. Furthermore, DeepSeek-Coder models are under a permissive license that allows for both research and unrestricted commercial use.

DeepSeek-Coder: Когда большая языковая модель встречается с программированием — Рассвет интеллектуальной обработки кода

DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence

Аннотация

Support