FEA-Bench: Бенчмарк для оценки генерации кода на уровне репозитория при реализации функциональности
FEA-Bench: A Benchmark for Evaluating Repository-Level Code Generation for Feature Implementation
March 9, 2025
Авторы: Wei Li, Xin Zhang, Zhongxin Guo, Shaoguang Mao, Wen Luo, Guangyue Peng, Yangyu Huang, Houfeng Wang, Scarlett Li
cs.AI
Аннотация
Реализация новых функций в кодовых базах на уровне репозитория является важным применением моделей генерации кода. Однако в текущих бенчмарках отсутствует специализированная система оценки для этой возможности. Чтобы заполнить этот пробел, мы представляем FEA-Bench — бенчмарк, разработанный для оценки способности крупных языковых моделей (LLM) выполнять инкрементальную разработку в рамках кодовых репозиториев. Мы собираем пул-реквесты из 83 репозиториев GitHub и используем фильтрацию на основе правил и намерений для создания задач, сфокусированных на разработке новых функций. Каждая задача, содержащая изменения кода, сопровождается соответствующими файлами модульных тестов, чтобы обеспечить возможность проверки решения. Реализация функции требует от LLM одновременно обладать способностью к завершению кода для новых компонентов и навыками редактирования кода для других связанных частей репозитория, что предоставляет более комплексный метод оценки автоматизированных возможностей LLM в области разработки программного обеспечения. Результаты экспериментов показывают, что LLM значительно хуже справляются с задачами в FEA-Bench, что подчеркивает существенные трудности в такой инкрементальной разработке кода на уровне репозитория.
English
Implementing new features in repository-level codebases is a crucial
application of code generation models. However, current benchmarks lack a
dedicated evaluation framework for this capability. To fill this gap, we
introduce FEA-Bench, a benchmark designed to assess the ability of large
language models (LLMs) to perform incremental development within code
repositories. We collect pull requests from 83 GitHub repositories and use
rule-based and intent-based filtering to construct task instances focused on
new feature development. Each task instance containing code changes is paired
with relevant unit test files to ensure that the solution can be verified. The
feature implementation requires LLMs to simultaneously possess code completion
capabilities for new components and code editing abilities for other relevant
parts in the code repository, providing a more comprehensive evaluation method
of LLMs' automated software engineering capabilities. Experimental results show
that LLMs perform significantly worse in the FEA-Bench, highlighting
considerable challenges in such repository-level incremental code development.Summary
AI-Generated Summary