WizardCoder: Potenciando Modelos de Lenguaje de Gran Escala para Código con Evol-Instruct
WizardCoder: Empowering Code Large Language Models with Evol-Instruct
June 14, 2023
Autores: Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang
cs.AI
Resumen
Los modelos de lenguaje de gran escala para código (Code LLMs), como StarCoder, han demostrado un rendimiento excepcional en tareas relacionadas con código. Sin embargo, la mayoría de los modelos existentes se preentrenan únicamente con grandes volúmenes de datos de código en bruto, sin un ajuste fino mediante instrucciones. En este artículo, presentamos WizardCoder, que potencia a los Code LLMs con un ajuste fino de instrucciones complejas, adaptando el método Evol-Instruct al dominio del código. A través de experimentos exhaustivos en cuatro destacados benchmarks de generación de código, concretamente HumanEval, HumanEval+, MBPP y DS-1000, revelamos las capacidades excepcionales de nuestro modelo. Este supera a todos los demás Code LLMs de código abierto por un margen considerable. Además, nuestro modelo incluso supera a los LLMs cerrados más grandes, como Claude de Anthropic y Bard de Google, en HumanEval y HumanEval+. Nuestro código, pesos del modelo y datos están disponibles públicamente en https://github.com/nlpxucan/WizardLM.
English
Code Large Language Models (Code LLMs), such as StarCoder, have demonstrated
exceptional performance in code-related tasks. However, most existing models
are solely pre-trained on extensive raw code data without instruction
fine-tuning. In this paper, we introduce WizardCoder, which empowers Code LLMs
with complex instruction fine-tuning, by adapting the Evol-Instruct method to
the domain of code. Through comprehensive experiments on four prominent code
generation benchmarks, namely HumanEval, HumanEval+, MBPP, and DS-1000, we
unveil the exceptional capabilities of our model. It surpasses all other
open-source Code LLMs by a substantial margin. Moreover, our model even
outperforms the largest closed LLMs, Anthropic's Claude and Google's Bard, on
HumanEval and HumanEval+. Our code, model weights, and data are public at
https://github.com/nlpxucan/WizardLM