FEA-Bench: Un Benchmark per Valutare la Generazione di Codice a Livello di Repository per l'Implementazione di Funzionalità
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation
March 9, 2025
Autori: Wei Li, Xin Zhang, Zhongxin Guo, Shaoguang Mao, Wen Luo, Guangyue Peng, Yangyu Huang, Houfeng Wang, Scarlett Li
cs.AI
Abstract
L'implementazione di nuove funzionalità in codebase a livello di repository rappresenta un'applicazione cruciale per i modelli di generazione di codice. Tuttavia, gli attuali benchmark mancano di un framework di valutazione dedicato a questa capacità. Per colmare questa lacuna, introduciamo FEA-Bench, un benchmark progettato per valutare l'abilità dei grandi modelli linguistici (LLM) nello svolgere sviluppi incrementali all'interno di repository di codice. Raccogliamo pull request da 83 repository GitHub e utilizziamo filtri basati su regole e intenti per costruire istanze di task focalizzate sullo sviluppo di nuove funzionalità. Ogni istanza di task contenente modifiche al codice è associata a file di unit test rilevanti per garantire che la soluzione possa essere verificata. L'implementazione delle funzionalità richiede che gli LLM possiedano simultaneamente capacità di completamento del codice per nuovi componenti e abilità di modifica del codice per altre parti rilevanti nel repository, fornendo un metodo di valutazione più completo delle capacità di ingegneria del software automatizzato degli LLM. I risultati sperimentali mostrano che gli LLM performano significativamente peggio in FEA-Bench, evidenziando notevoli sfide in tale sviluppo incrementale di codice a livello di repository.
English
Implementing new features in repository-level codebases is a crucial
application of code generation models. However, current benchmarks lack a
dedicated evaluation framework for this capability. To fill this gap, we
introduce FEA-Bench, a benchmark designed to assess the ability of large
language models (LLMs) to perform incremental development within code
repositories. We collect pull requests from 83 GitHub repositories and use
rule-based and intent-based filtering to construct task instances focused on
new feature development. Each task instance containing code changes is paired
with relevant unit test files to ensure that the solution can be verified. The
feature implementation requires LLMs to simultaneously possess code completion
capabilities for new components and code editing abilities for other relevant
parts in the code repository, providing a more comprehensive evaluation method
of LLMs' automated software engineering capabilities. Experimental results show
that LLMs perform significantly worse in the FEA-Bench, highlighting
considerable challenges in such repository-level incremental code development.Summary
AI-Generated Summary