ChatPaper.aiChatPaper

M2rc-Eval: Completude de Código em Nível de Repositório Massivamente Multilíngue Avaliação

M2rc-Eval: Massively Multilingual Repository-level Code Completion Evaluation

October 28, 2024
Autores: Jiaheng Liu, Ken Deng, Congnan Liu, Jian Yang, Shukai Liu, He Zhu, Peng Zhao, Linzheng Chai, Yanan Wu, Ke Jin, Ge Zhang, Zekun Wang, Guoan Zhang, Bangyu Xiang, Wenbo Su, Bo Zheng
cs.AI

Resumo

O preenchimento de código a nível de repositório tem recebido grande atenção na engenharia de software, e vários conjuntos de dados de referência foram introduzidos. No entanto, os conjuntos de dados de referência existentes para o preenchimento de código a nível de repositório geralmente se concentram em um número limitado de idiomas (<5), o que não permite avaliar as habilidades gerais de inteligência de código em diferentes idiomas para os Modelos de Linguagem de Código Grande (LLMs) existentes. Além disso, os conjuntos de dados de referência existentes geralmente relatam pontuações médias gerais de diferentes idiomas, onde as habilidades detalhadas em diferentes cenários de preenchimento são ignoradas. Portanto, para facilitar a pesquisa de LLMs de código em cenários multilíngues, propomos um conjunto de dados de referência de preenchimento de código a nível de repositório massivamente multilíngue que abrange 18 idiomas de programação (chamado M2RC-EVAL), e dois tipos de anotações detalhadas (ou seja, nível de bucket e nível semântico) em diferentes cenários de preenchimento são fornecidos, onde obtemos essas anotações com base na árvore de sintaxe abstrata analisada. Além disso, também curamos um conjunto de dados de instruções massivamente multilíngue, M2RC-INSTRUCT, para melhorar as habilidades de preenchimento de código a nível de repositório dos LLMs de código existentes. Resultados experimentais abrangentes demonstram a eficácia de nosso M2RC-EVAL e M2RC-INSTRUCT.
English
Repository-level code completion has drawn great attention in software engineering, and several benchmark datasets have been introduced. However, existing repository-level code completion benchmarks usually focus on a limited number of languages (<5), which cannot evaluate the general code intelligence abilities across different languages for existing code Large Language Models (LLMs). Besides, the existing benchmarks usually report overall average scores of different languages, where the fine-grained abilities in different completion scenarios are ignored. Therefore, to facilitate the research of code LLMs in multilingual scenarios, we propose a massively multilingual repository-level code completion benchmark covering 18 programming languages (called M2RC-EVAL), and two types of fine-grained annotations (i.e., bucket-level and semantic-level) on different completion scenarios are provided, where we obtain these annotations based on the parsed abstract syntax tree. Moreover, we also curate a massively multilingual instruction corpora M2RC- INSTRUCT dataset to improve the repository-level code completion abilities of existing code LLMs. Comprehensive experimental results demonstrate the effectiveness of our M2RC-EVAL and M2RC-INSTRUCT.

Summary

AI-Generated Summary

PDF62November 13, 2024