FEA-Bench : Un benchmark pour l'évaluation de la génération de code au niveau du référentiel pour l'implémentation de fonctionnalités
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation
March 9, 2025
Auteurs: Wei Li, Xin Zhang, Zhongxin Guo, Shaoguang Mao, Wen Luo, Guangyue Peng, Yangyu Huang, Houfeng Wang, Scarlett Li
cs.AI
Résumé
L'implémentation de nouvelles fonctionnalités dans des bases de code au niveau du dépôt est une application cruciale des modèles de génération de code. Cependant, les benchmarks actuels manquent d'un cadre d'évaluation dédié à cette capacité. Pour combler cette lacune, nous introduisons FEA-Bench, un benchmark conçu pour évaluer la capacité des grands modèles de langage (LLMs) à effectuer un développement incrémental au sein des dépôts de code. Nous collectons des demandes de pull provenant de 83 dépôts GitHub et utilisons un filtrage basé sur des règles et sur l'intention pour construire des instances de tâches axées sur le développement de nouvelles fonctionnalités. Chaque instance de tâche contenant des modifications de code est associée à des fichiers de tests unitaires pertinents pour s'assurer que la solution peut être vérifiée. L'implémentation de fonctionnalités nécessite que les LLMs possèdent simultanément des capacités de complétion de code pour de nouveaux composants et des capacités d'édition de code pour d'autres parties pertinentes du dépôt de code, offrant ainsi une méthode d'évaluation plus complète des capacités d'ingénierie logicielle automatisée des LLMs. Les résultats expérimentaux montrent que les LLMs performent significativement moins bien dans FEA-Bench, mettant en évidence des défis considérables dans un tel développement incrémental de code au niveau du dépôt.
English
Implementing new features in repository-level codebases is a crucial
application of code generation models. However, current benchmarks lack a
dedicated evaluation framework for this capability. To fill this gap, we
introduce FEA-Bench, a benchmark designed to assess the ability of large
language models (LLMs) to perform incremental development within code
repositories. We collect pull requests from 83 GitHub repositories and use
rule-based and intent-based filtering to construct task instances focused on
new feature development. Each task instance containing code changes is paired
with relevant unit test files to ensure that the solution can be verified. The
feature implementation requires LLMs to simultaneously possess code completion
capabilities for new components and code editing abilities for other relevant
parts in the code repository, providing a more comprehensive evaluation method
of LLMs' automated software engineering capabilities. Experimental results show
that LLMs perform significantly worse in the FEA-Bench, highlighting
considerable challenges in such repository-level incremental code development.Summary
AI-Generated Summary