FEA-Bench: Een Benchmark voor het Evalueren van Codegeneratie op Repositoriumniveau voor Feature-implementatie
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation
March 9, 2025
Auteurs: Wei Li, Xin Zhang, Zhongxin Guo, Shaoguang Mao, Wen Luo, Guangyue Peng, Yangyu Huang, Houfeng Wang, Scarlett Li
cs.AI
Samenvatting
Het implementeren van nieuwe functies in repository-level codebases is een cruciale toepassing van codegeneratiemodellen. Huidige benchmarks missen echter een specifiek evaluatiekader voor deze mogelijkheid. Om deze leemte op te vullen, introduceren we FEA-Bench, een benchmark die is ontworpen om het vermogen van grote taalmodellen (LLMs) te beoordelen om incrementele ontwikkeling binnen coderepositories uit te voeren. We verzamelen pull requests van 83 GitHub-repositories en gebruiken regelgebaseerde en intentiegebaseerde filtering om taakinstanties te construeren die gericht zijn op de ontwikkeling van nieuwe functies. Elke taakinstantie met codewijzigingen wordt gekoppeld aan relevante unit testbestanden om ervoor te zorgen dat de oplossing kan worden geverifieerd. De implementatie van functies vereist dat LLMs zowel codecompleteringsmogelijkheden voor nieuwe componenten als codebewerkingsmogelijkheden voor andere relevante delen in de coderepository bezitten, wat een uitgebreidere evaluatiemethode biedt van de geautomatiseerde software-engineeringcapaciteiten van LLMs. Experimentele resultaten tonen aan dat LLMs aanzienlijk slechter presteren in de FEA-Bench, wat aanzienlijke uitdagingen benadrukt bij dergelijke repository-level incrementele codeontwikkeling.
English
Implementing new features in repository-level codebases is a crucial
application of code generation models. However, current benchmarks lack a
dedicated evaluation framework for this capability. To fill this gap, we
introduce FEA-Bench, a benchmark designed to assess the ability of large
language models (LLMs) to perform incremental development within code
repositories. We collect pull requests from 83 GitHub repositories and use
rule-based and intent-based filtering to construct task instances focused on
new feature development. Each task instance containing code changes is paired
with relevant unit test files to ensure that the solution can be verified. The
feature implementation requires LLMs to simultaneously possess code completion
capabilities for new components and code editing abilities for other relevant
parts in the code repository, providing a more comprehensive evaluation method
of LLMs' automated software engineering capabilities. Experimental results show
that LLMs perform significantly worse in the FEA-Bench, highlighting
considerable challenges in such repository-level incremental code development.Summary
AI-Generated Summary