Magicoder: Código Fonte É Tudo Que Você Precisa

Resumo

Apresentamos o Magicoder, uma série de Modelos de Linguagem de Grande Escala (LLMs) totalmente open-source (código, pesos e dados) para código que reduz significativamente a lacuna em relação aos principais modelos de código, mesmo possuindo não mais que 7 bilhões de parâmetros. Os modelos Magicoder são treinados com 75 mil dados de instrução sintéticos utilizando o OSS-Instruct, uma abordagem inovadora que capacita LLMs com snippets de código open-source para gerar dados de instrução de alta qualidade para código. Nossa principal motivação é mitigar o viés inerente dos dados sintéticos gerados por LLMs, fornecendo-lhes uma riqueza de referências open-source para a produção de dados mais diversos, realistas e controláveis. A ortogonalidade do OSS-Instruct em relação a outros métodos de geração de dados, como o Evol-Instruct, nos permite ainda construir um MagicoderS aprimorado. Tanto o Magicoder quanto o MagicoderS superam substancialmente os modelos de código state-of-the-art de tamanhos similares ou até maiores em uma ampla gama de benchmarks de codificação, incluindo geração de texto para código em Python, codificação multilíngue e conclusão de programas de ciência de dados. Notavelmente, o MagicoderS-CL-7B, baseado no CodeLlama, supera até mesmo o renomado ChatGPT no HumanEval+ (66,5 vs. 65,9 em pass@1). No geral, o OSS-Instruct abre uma nova direção para o ajuste fino de instruções com baixo viés e alta qualidade, utilizando abundantes referências open-source.

English

We introduce Magicoder, a series of fully open-source (code, weights, and data) Large Language Models (LLMs) for code that significantly closes the gap with top code models while having no more than 7B parameters. Magicoder models are trained on 75K synthetic instruction data using OSS-Instruct, a novel approach to enlightening LLMs with open-source code snippets to generate high-quality instruction data for code. Our main motivation is to mitigate the inherent bias of the synthetic data generated by LLMs by empowering them with a wealth of open-source references for the production of more diverse, realistic, and controllable data. The orthogonality of OSS-Instruct and other data generation methods like Evol-Instruct further enables us to build an enhanced MagicoderS. Both Magicoder and MagicoderS substantially outperform state-of-the-art code models with similar or even larger sizes on a wide range of coding benchmarks, including Python text-to-code generation, multilingual coding, and data-science program completion. Notably, MagicoderS-CL-7B based on CodeLlama even surpasses the prominent ChatGPT on HumanEval+ (66.5 vs. 65.9 in pass@1). Overall, OSS-Instruct opens a new direction for low-bias and high-quality instruction tuning using abundant open-source references.

Magicoder: Código Fonte É Tudo Que Você Precisa

Magicoder: Source Code Is All You Need

Resumo

Support