M2rc-Eval: Completado de código a nivel de repositorio masivamente multilingüe Evaluación
M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation
October 28, 2024
Autores: Jiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng
cs.AI
Resumen
La finalización de código a nivel de repositorio ha atraído gran atención en ingeniería de software, y se han introducido varios conjuntos de datos de referencia. Sin embargo, los conjuntos de datos de referencia existentes para la finalización de código a nivel de repositorio suelen centrarse en un número limitado de lenguajes (<5), lo que no permite evaluar las capacidades generales de inteligencia de código en diferentes lenguajes para los Modelos de Lenguaje de Código Grande (LLMs, por sus siglas en inglés) existentes. Además, los conjuntos de datos existentes suelen informar puntajes promedio generales de diferentes lenguajes, donde se ignoran las habilidades detalladas en diferentes escenarios de completado. Por lo tanto, para facilitar la investigación de LLMs de código en escenarios multilingües, proponemos un conjunto de datos de referencia de finalización de código a nivel de repositorio masivamente multilingüe que abarca 18 lenguajes de programación (llamado M2RC-EVAL), y se proporcionan dos tipos de anotaciones detalladas (es decir, a nivel de cubo y a nivel semántico) en diferentes escenarios de completado, donde obtenemos estas anotaciones basadas en el árbol de sintaxis abstracta analizado. Además, también recopilamos un corpus de instrucciones masivamente multilingüe, el conjunto de datos M2RC-INSTRUCT, para mejorar las capacidades de finalización de código a nivel de repositorio de los LLMs de código existentes. Los resultados experimentales exhaustivos demuestran la efectividad de nuestro M2RC-EVAL y M2RC-INSTRUCT.
English
Repository-level code completion has drawn great attention in software
engineering, and several benchmark datasets have been introduced. However,
existing repository-level code completion benchmarks usually focus on a limited
number of languages (<5), which cannot evaluate the general code intelligence
abilities across different languages for existing code Large Language Models
(LLMs). Besides, the existing benchmarks usually report overall average scores
of different languages, where the fine-grained abilities in different
completion scenarios are ignored. Therefore, to facilitate the research of code
LLMs in multilingual scenarios, we propose a massively multilingual
repository-level code completion benchmark covering 18 programming languages
(called M2RC-EVAL), and two types of fine-grained annotations (i.e.,
bucket-level and semantic-level) on different completion scenarios are
provided, where we obtain these annotations based on the parsed abstract syntax
tree. Moreover, we also curate a massively multilingual instruction corpora
M2RC- INSTRUCT dataset to improve the repository-level code completion
abilities of existing code LLMs. Comprehensive experimental results demonstrate
the effectiveness of our M2RC-EVAL and M2RC-INSTRUCT.Summary
AI-Generated Summary