McEval : Évaluation de code massivement multilingue
McEval: Massively Multilingual Code Evaluation
June 11, 2024
Auteurs: Linzheng Chai, Shukai Liu, Jian Yang, Yuwei Yin, Ke Jin, Jiaheng Liu, Tao Sun, Ge Zhang, Changyu Ren, Hongcheng Guo, Zekun Wang, Boyang Wang, Xianjie Wu, Bing Wang, Tongliang Li, Liqun Yang, Sufeng Duan, Zhoujun Li
cs.AI
Résumé
Les modèles de langage de grande taille (LLM) spécialisés dans le code ont démontré des avancées remarquables dans les tâches de compréhension, de complétion et de génération de code. Les benchmarks de programmation, composés d'une sélection de défis de code et de leurs cas de test correspondants, servent de norme pour évaluer les capacités des différents LLM dans ces tâches. Cependant, la plupart des benchmarks existants se concentrent principalement sur Python et restent limités à un nombre restreint de langages, où d'autres langages sont traduits à partir des échantillons Python (par exemple, MultiPL-E), ce qui réduit la diversité des données. Pour faciliter davantage la recherche sur les LLM de code, nous proposons un benchmark massivement multilingue couvrant 40 langages de programmation (McEval) avec 16 000 échantillons de test, repoussant ainsi considérablement les limites des LLM de code dans des scénarios multilingues. Ce benchmark comprend des tâches d'évaluation exigeantes en complétion, compréhension et génération de code, accompagnées d'un corpus d'instructions massivement multilingue soigneusement élaboré, McEval-Instruct. De plus, nous introduisons un codeur multilingue efficace, mCoder, entraîné sur McEval-Instruct, pour soutenir la génération de code dans plusieurs langages de programmation. Les résultats expérimentaux approfondis sur McEval montrent qu'il existe encore un chemin difficile entre les modèles open-source et les LLM propriétaires (par exemple, les modèles de la série GPT) dans de nombreux langages. Le corpus d'instructions, le benchmark d'évaluation et le classement sont disponibles à l'adresse https://mceval.github.io/.
English
Code large language models (LLMs) have shown remarkable advances in code
understanding, completion, and generation tasks. Programming benchmarks,
comprised of a selection of code challenges and corresponding test cases, serve
as a standard to evaluate the capability of different LLMs in such tasks.
However, most existing benchmarks primarily focus on Python and are still
restricted to a limited number of languages, where other languages are
translated from the Python samples (e.g. MultiPL-E) degrading the data
diversity. To further facilitate the research of code LLMs, we propose a
massively multilingual code benchmark covering 40 programming languages
(McEval) with 16K test samples, which substantially pushes the limits of code
LLMs in multilingual scenarios. The benchmark contains challenging code
completion, understanding, and generation evaluation tasks with finely curated
massively multilingual instruction corpora McEval-Instruct. In addition, we
introduce an effective multilingual coder mCoder trained on McEval-Instruct to
support multilingual programming language generation. Extensive experimental
results on McEval show that there is still a difficult journey between
open-source models and closed-source LLMs (e.g. GPT-series models) in numerous
languages. The instruction corpora, evaluation benchmark, and leaderboard are
available at https://mceval.github.io/.Summary
AI-Generated Summary