Magicoder : Le Code Source Est Tout Ce Dont Vous Avez Besoin

papers.abstract

Nous présentons Magicoder, une série de modèles de langage de grande taille (LLMs) entièrement open-source (code, poids et données) dédiés au code, qui réduit considérablement l'écart avec les meilleurs modèles de code tout en ne dépassant pas 7 milliards de paramètres. Les modèles Magicoder sont entraînés sur 75 000 données d'instructions synthétiques en utilisant OSS-Instruct, une approche novatrice qui éclaire les LLMs avec des extraits de code open-source pour générer des données d'instructions de haute qualité pour le code. Notre motivation principale est d'atténuer le biais inhérent des données synthétiques générées par les LLMs en les dotant d'une richesse de références open-source pour produire des données plus diversifiées, réalistes et contrôlables. L'orthogonalité d'OSS-Instruct avec d'autres méthodes de génération de données comme Evol-Instruct nous permet également de construire un MagicoderS amélioré. Magicoder et MagicoderS surpassent largement les modèles de code de pointe de tailles similaires ou même supérieures sur une large gamme de benchmarks de codage, incluant la génération de code à partir de texte en Python, le codage multilingue et la complétion de programmes en science des données. Notamment, MagicoderS-CL-7B, basé sur CodeLlama, dépasse même le célèbre ChatGPT sur HumanEval+ (66,5 contre 65,9 en pass@1). Globalement, OSS-Instruct ouvre une nouvelle voie pour un réglage d'instructions à faible biais et de haute qualité en utilisant des références open-source abondantes.

English

We introduce Magicoder, a series of fully open-source (code, weights, and data) Large Language Models (LLMs) for code that significantly closes the gap with top code models while having no more than 7B parameters. Magicoder models are trained on 75K synthetic instruction data using OSS-Instruct, a novel approach to enlightening LLMs with open-source code snippets to generate high-quality instruction data for code. Our main motivation is to mitigate the inherent bias of the synthetic data generated by LLMs by empowering them with a wealth of open-source references for the production of more diverse, realistic, and controllable data. The orthogonality of OSS-Instruct and other data generation methods like Evol-Instruct further enables us to build an enhanced MagicoderS. Both Magicoder and MagicoderS substantially outperform state-of-the-art code models with similar or even larger sizes on a wide range of coding benchmarks, including Python text-to-code generation, multilingual coding, and data-science program completion. Notably, MagicoderS-CL-7B based on CodeLlama even surpasses the prominent ChatGPT on HumanEval+ (66.5 vs. 65.9 in pass@1). Overall, OSS-Instruct opens a new direction for low-bias and high-quality instruction tuning using abundant open-source references.

Magicoder : Le Code Source Est Tout Ce Dont Vous Avez Besoin

Magicoder: Source Code Is All You Need

papers.abstract

Support