Бенчмаркинг моделей ИИ в разработке программного обеспечения: обзор, инструмент поиска и протокол улучшения

Аннотация

Бенчмарки играют ключевую роль для обеспечения последовательной оценки и воспроизводимости. Интеграция искусственного интеллекта в разработку программного обеспечения (AI4SE) привела к появлению множества бенчмарков для таких задач, как генерация кода и исправление ошибок. Однако этот рост сопровождается рядом проблем: (1) разрозненность знаний о бенчмарках для различных задач, (2) сложность выбора подходящих бенчмарков, (3) отсутствие единого стандарта для разработки бенчмарков и (4) ограничения существующих бенчмарков. В данной статье мы рассмотрели 173 исследования и выявили 204 бенчмарка AI4SE. Мы классифицировали эти бенчмарки, проанализировали их ограничения и выявили пробелы в текущих практиках. На основе нашего обзора мы создали BenchScout — инструмент семантического поиска для нахождения релевантных бенчмарков, используя автоматическую кластеризацию контекстов из связанных исследований. Мы провели исследование с участием 22 пользователей для оценки удобства, эффективности и интуитивности BenchScout, получив средние оценки 4.5, 4.0 и 4.1 из 5. Для продвижения стандартов бенчмаркинга мы предлагаем BenchFrame — унифицированный метод для повышения качества бенчмарков. В качестве примера мы применили BenchFrame к бенчмарку HumanEval и устранили его основные ограничения. Это привело к созданию HumanEvalNext, который включает (1) исправленные ошибки, (2) улучшенную конвертацию языков, (3) расширенное покрытие тестов и (4) повышенную сложность. Затем мы оценили десять современных языковых моделей для генерации кода на HumanEval, HumanEvalPlus и HumanEvalNext. На HumanEvalNext модели показали снижение показателя pass@1 на 31.22% и 19.94% по сравнению с HumanEval и HumanEvalPlus соответственно.

English

Benchmarks are essential for consistent evaluation and reproducibility. The integration of Artificial Intelligence into Software Engineering (AI4SE) has given rise to numerous benchmarks for tasks such as code generation and bug fixing. However, this surge presents challenges: (1) scattered benchmark knowledge across tasks, (2) difficulty in selecting relevant benchmarks, (3) the absence of a uniform standard for benchmark development, and (4) limitations of existing benchmarks. In this paper, we review 173 studies and identify 204 AI4SE benchmarks. We classify these benchmarks, analyze their limitations, and expose gaps in practices. Based on our review, we created BenchScout, a semantic search tool to find relevant benchmarks, using automated clustering of the contexts from associated studies. We conducted a user study with 22 participants to evaluate BenchScout's usability, effectiveness, and intuitiveness which resulted in average scores of 4.5, 4.0, and 4.1 out of 5. To advance benchmarking standards, we propose BenchFrame, a unified method to enhance benchmark quality. As a case study, we applied BenchFrame to the HumanEval benchmark and addressed its main limitations. This led to HumanEvalNext, featuring (1) corrected errors, (2) improved language conversion, (3) expanded test coverage, and (4) increased difficulty. We then evaluated ten state-of-the-art code language models on HumanEval, HumanEvalPlus, and HumanEvalNext. On HumanEvalNext, models showed a pass@1 score reduction of 31.22% and 19.94% compared to HumanEval and HumanEvalPlus, respectively.

Бенчмаркинг моделей ИИ в разработке программного обеспечения: обзор, инструмент поиска и протокол улучшения

Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol

Аннотация

Support