DeepSeek-Coder: Когда большая языковая модель встречается с программированием — Рассвет интеллектуальной обработки кода
DeepSeek-Coder: When the Large Language Model Meets Programming -- The Rise of Code Intelligence
January 25, 2024
Авторы: Daya Guo, Qihao Zhu, Dejian Yang, Zhenda Xie, Kai Dong, Wentao Zhang, Guanting Chen, Xiao Bi, Y. Wu, Y. K. Li, Fuli Luo, Yingfei Xiong, Wenfeng Liang
cs.AI
Аннотация
Быстрое развитие крупных языковых моделей произвело революцию в области анализа кода в разработке программного обеспечения. Однако доминирование моделей с закрытым исходным кодом ограничило масштабные исследования и разработки. Чтобы решить эту проблему, мы представляем серию DeepSeek-Coder — набор моделей для работы с кодом с открытым исходным кодом, размер которых варьируется от 1,3 млрд до 33 млрд параметров, обученных с нуля на 2 триллионах токенов. Эти модели предварительно обучаются на высококачественном корпусе кода на уровне проектов и используют задачу заполнения пропусков с окном в 16 тыс. токенов для улучшения генерации и дополнения кода. Наши обширные оценки показывают, что DeepSeek-Coder не только достигает наилучших результатов среди моделей с открытым исходным кодом на множестве тестов, но и превосходит существующие модели с закрытым исходным кодом, такие как Codex и GPT-3.5. Кроме того, модели DeepSeek-Coder распространяются под разрешительной лицензией, которая позволяет использовать их как для исследований, так и для коммерческого применения без ограничений.
English
The rapid development of large language models has revolutionized code
intelligence in software development. However, the predominance of
closed-source models has restricted extensive research and development. To
address this, we introduce the DeepSeek-Coder series, a range of open-source
code models with sizes from 1.3B to 33B, trained from scratch on 2 trillion
tokens. These models are pre-trained on a high-quality project-level code
corpus and employ a fill-in-the-blank task with a 16K window to enhance code
generation and infilling. Our extensive evaluations demonstrate that
DeepSeek-Coder not only achieves state-of-the-art performance among open-source
code models across multiple benchmarks but also surpasses existing
closed-source models like Codex and GPT-3.5. Furthermore, DeepSeek-Coder models
are under a permissive license that allows for both research and unrestricted
commercial use.