WizardCoder: Potencializando Modelos de Linguagem de Grande Escala para Código com Evol-Instruct
WizardCoder: Empowering Code Large Language Models with Evol-Instruct
June 14, 2023
Autores: Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang
cs.AI
Resumo
Modelos de Linguagem de Grande Escala para Código (Code LLMs), como o StarCoder, demonstraram desempenho excepcional em tarefas relacionadas a código. No entanto, a maioria dos modelos existentes é pré-treinada exclusivamente em grandes volumes de dados brutos de código, sem ajuste fino por instruções. Neste artigo, apresentamos o WizardCoder, que capacita os Code LLMs com ajuste fino de instruções complexas, adaptando o método Evol-Instruct ao domínio do código. Por meio de experimentos abrangentes em quatro benchmarks proeminentes de geração de código, nomeadamente HumanEval, HumanEval+, MBPP e DS-1000, revelamos as capacidades excepcionais do nosso modelo. Ele supera todos os outros Code LLMs de código aberto por uma margem substancial. Além disso, nosso modelo até supera os maiores LLMs fechados, o Claude da Anthropic e o Bard da Google, no HumanEval e HumanEval+. Nosso código, pesos do modelo e dados estão disponíveis publicamente em https://github.com/nlpxucan/WizardLM.
English
Code Large Language Models (Code LLMs), such as StarCoder, have demonstrated
exceptional performance in code-related tasks. However, most existing models
are solely pre-trained on extensive raw code data without instruction
fine-tuning. In this paper, we introduce WizardCoder, which empowers Code LLMs
with complex instruction fine-tuning, by adapting the Evol-Instruct method to
the domain of code. Through comprehensive experiments on four prominent code
generation benchmarks, namely HumanEval, HumanEval+, MBPP, and DS-1000, we
unveil the exceptional capabilities of our model. It surpasses all other
open-source Code LLMs by a substantial margin. Moreover, our model even
outperforms the largest closed LLMs, Anthropic's Claude and Google's Bard, on
HumanEval and HumanEval+. Our code, model weights, and data are public at
https://github.com/nlpxucan/WizardLM