McEval: 대규모 다국어 코드 평가
McEval: Massively Multilingual Code Evaluation
June 11, 2024
저자: Linzheng Chai, Shukai Liu, Jian Yang, Yuwei Yin, Ke Jin, Jiaheng Liu, Tao Sun, Ge Zhang, Changyu Ren, Hongcheng Guo, Zekun Wang, Boyang Wang, Xianjie Wu, Bing Wang, Tongliang Li, Liqun Yang, Sufeng Duan, Zhoujun Li
cs.AI
초록
코드 대형 언어 모델(LLMs)은 코드 이해, 완성 및 생성 작업에서 놀라운 발전을 보여주고 있습니다. 프로그래밍 벤치마크는 다양한 코드 문제와 해당 테스트 케이스로 구성되어 있으며, 이러한 작업에서 서로 다른 LLMs의 능력을 평가하는 표준으로 사용됩니다. 그러나 대부분의 기존 벤치마크는 주로 Python에 초점을 맞추고 있으며 여전히 제한된 수의 언어로 구성되어 있어, 다른 언어들은 Python 샘플에서 번역된 경우(예: MultiPL-E)가 많아 데이터 다양성이 저하되고 있습니다. 코드 LLMs 연구를 더욱 촉진하기 위해, 우리는 40개의 프로그래밍 언어를 포함한 대규모 다국어 코드 벤치마크(McEval)를 제안하며, 이는 16K 테스트 샘플로 구성되어 코드 LLMs의 다국어 시나리오에서의 한계를 크게 확장합니다. 이 벤치마크는 도전적인 코드 완성, 이해 및 생성 평가 작업을 포함하며, 정교하게 구성된 대규모 다국어 명령어 코퍼스인 McEval-Instruct를 제공합니다. 또한, 우리는 McEval-Instruct를 기반으로 훈련된 효과적인 다국어 코더 mCoder를 소개하여 다국어 프로그래밍 언어 생성을 지원합니다. McEval에 대한 광범위한 실험 결과는 오픈소스 모델과 폐쇄형 LLMs(예: GPT 시리즈 모델) 사이에 여전히 많은 언어에서 어려운 여정이 있음을 보여줍니다. 명령어 코퍼스, 평가 벤치마크 및 리더보드는 https://mceval.github.io/에서 확인할 수 있습니다.
English
Code large language models (LLMs) have shown remarkable advances in code
understanding, completion, and generation tasks. Programming benchmarks,
comprised of a selection of code challenges and corresponding test cases, serve
as a standard to evaluate the capability of different LLMs in such tasks.
However, most existing benchmarks primarily focus on Python and are still
restricted to a limited number of languages, where other languages are
translated from the Python samples (e.g. MultiPL-E) degrading the data
diversity. To further facilitate the research of code LLMs, we propose a
massively multilingual code benchmark covering 40 programming languages
(McEval) with 16K test samples, which substantially pushes the limits of code
LLMs in multilingual scenarios. The benchmark contains challenging code
completion, understanding, and generation evaluation tasks with finely curated
massively multilingual instruction corpora McEval-Instruct. In addition, we
introduce an effective multilingual coder mCoder trained on McEval-Instruct to
support multilingual programming language generation. Extensive experimental
results on McEval show that there is still a difficult journey between
open-source models and closed-source LLMs (e.g. GPT-series models) in numerous
languages. The instruction corpora, evaluation benchmark, and leaderboard are
available at https://mceval.github.io/.Summary
AI-Generated Summary