FEA-Bench: Um Benchmark para Avaliação de Geração de Código em Nível de Repositório para Implementação de Funcionalidades
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation
March 9, 2025
Autores: Wei Li, Xin Zhang, Zhongxin Guo, Shaoguang Mao, Wen Luo, Guangyue Peng, Yangyu Huang, Houfeng Wang, Scarlett Li
cs.AI
Resumo
A implementação de novas funcionalidades em bases de código em nível de repositório é uma aplicação crucial dos modelos de geração de código. No entanto, os benchmarks atuais carecem de uma estrutura de avaliação dedicada para essa capacidade. Para preencher essa lacuna, introduzimos o FEA-Bench, um benchmark projetado para avaliar a habilidade de modelos de linguagem de grande escala (LLMs) em realizar desenvolvimento incremental dentro de repositórios de código. Coletamos pull requests de 83 repositórios do GitHub e utilizamos filtragem baseada em regras e intenção para construir instâncias de tarefas focadas no desenvolvimento de novas funcionalidades. Cada instância de tarefa contendo alterações de código é emparelhada com arquivos de testes unitários relevantes para garantir que a solução possa ser verificada. A implementação de funcionalidades exige que os LLMs possuam simultaneamente capacidades de conclusão de código para novos componentes e habilidades de edição de código para outras partes relevantes no repositório, proporcionando um método de avaliação mais abrangente das capacidades de engenharia de software automatizada dos LLMs. Os resultados experimentais mostram que os LLMs têm um desempenho significativamente pior no FEA-Bench, destacando desafios consideráveis nesse tipo de desenvolvimento incremental de código em nível de repositório.
English
Implementing new features in repository-level codebases is a crucial
application of code generation models. However, current benchmarks lack a
dedicated evaluation framework for this capability. To fill this gap, we
introduce FEA-Bench, a benchmark designed to assess the ability of large
language models (LLMs) to perform incremental development within code
repositories. We collect pull requests from 83 GitHub repositories and use
rule-based and intent-based filtering to construct task instances focused on
new feature development. Each task instance containing code changes is paired
with relevant unit test files to ensure that the solution can be verified. The
feature implementation requires LLMs to simultaneously possess code completion
capabilities for new components and code editing abilities for other relevant
parts in the code repository, providing a more comprehensive evaluation method
of LLMs' automated software engineering capabilities. Experimental results show
that LLMs perform significantly worse in the FEA-Bench, highlighting
considerable challenges in such repository-level incremental code development.Summary
AI-Generated Summary