McEval: Massiv mehrsprachige Code-Bewertung

papers.abstract

Große Sprachmodelle für Code (LLMs) haben bemerkenswerte Fortschritte bei der Code-Verständnis-, -Vervollständigungs- und -Generierungsaufgaben gezeigt. Programmier-Benchmarks, bestehend aus einer Auswahl von Code-Herausforderungen und entsprechenden Testfällen, dienen als Standard zur Bewertung der Leistungsfähigkeit verschiedener LLMs bei solchen Aufgaben. Die meisten bestehenden Benchmarks konzentrieren sich jedoch hauptsächlich auf Python und sind immer noch auf eine begrenzte Anzahl von Sprachen beschränkt, wobei andere Sprachen aus den Python-Beispielen übersetzt werden (z. B. MultiPL-E), was die Datenvielfalt verringert. Um die Forschung zu Code-LLMs weiter zu erleichtern, schlagen wir einen massiv mehrsprachigen Code-Benchmark vor, der 40 Programmiersprachen abdeckt (McEval) mit 16K Testbeispielen, was die Grenzen von Code-LLMs in mehrsprachigen Szenarien erheblich erweitert. Der Benchmark enthält anspruchsvolle Code-Vervollständigungs-, -Verständnis- und -Generierungsbewertungsaufgaben mit sorgfältig kuratierten massiv mehrsprachigen Anweisungskorpora McEval-Instruct. Darüber hinaus stellen wir einen effektiven mehrsprachigen Codierer mCoder vor, der auf McEval-Instruct trainiert wurde, um die Generierung von mehrsprachigen Programmiersprachen zu unterstützen. Umfangreiche experimentelle Ergebnisse zu McEval zeigen, dass es immer noch eine schwierige Reise zwischen Open-Source-Modellen und Closed-Source-LLMs (z. B. GPT-Serienmodelle) in zahlreichen Sprachen gibt. Die Anweisungskorpora, der Bewertungsbenchmark und die Rangliste sind unter https://mceval.github.io/ verfügbar.

English

Code large language models (LLMs) have shown remarkable advances in code understanding, completion, and generation tasks. Programming benchmarks, comprised of a selection of code challenges and corresponding test cases, serve as a standard to evaluate the capability of different LLMs in such tasks. However, most existing benchmarks primarily focus on Python and are still restricted to a limited number of languages, where other languages are translated from the Python samples (e.g. MultiPL-E) degrading the data diversity. To further facilitate the research of code LLMs, we propose a massively multilingual code benchmark covering 40 programming languages (McEval) with 16K test samples, which substantially pushes the limits of code LLMs in multilingual scenarios. The benchmark contains challenging code completion, understanding, and generation evaluation tasks with finely curated massively multilingual instruction corpora McEval-Instruct. In addition, we introduce an effective multilingual coder mCoder trained on McEval-Instruct to support multilingual programming language generation. Extensive experimental results on McEval show that there is still a difficult journey between open-source models and closed-source LLMs (e.g. GPT-series models) in numerous languages. The instruction corpora, evaluation benchmark, and leaderboard are available at https://mceval.github.io/.

McEval: Massiv mehrsprachige Code-Bewertung

McEval: Massively Multilingual Code Evaluation

papers.abstract

Support