소프트웨어 공학에서 AI 모델 벤치마킹: 리뷰, 검색 도구 및 개선 프로토콜
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol
March 7, 2025
저자: Roham Koohestani, Philippe de Bekker, Maliheh Izadi
cs.AI
초록
벤치마크는 일관된 평가와 재현성을 위해 필수적입니다. 소프트웨어 공학에 인공지능을 통합하는 AI4SE(Artificial Intelligence for Software Engineering)는 코드 생성 및 버그 수정과 같은 작업을 위한 수많은 벤치마크를 탄생시켰습니다. 그러나 이러한 급증은 다음과 같은 문제를 야기합니다: (1) 작업 간에 흩어진 벤치마크 지식, (2) 관련 벤치마크 선택의 어려움, (3) 벤치마크 개발을 위한 통일된 표준의 부재, (4) 기존 벤치마크의 한계. 본 논문에서는 173개의 연구를 검토하고 204개의 AI4SE 벤치마크를 식별했습니다. 우리는 이러한 벤치마크를 분류하고, 그 한계를 분석하며, 실제 적용에서의 격차를 드러냈습니다. 이 검토를 바탕으로, 관련 연구의 문맥을 자동으로 클러스터링하여 관련 벤치마크를 찾을 수 있는 의미 기반 검색 도구인 BenchScout를 개발했습니다. BenchScout의 사용성, 효과성, 직관성을 평가하기 위해 22명의 참가자를 대상으로 사용자 연구를 진행했으며, 각각 5점 만점에 평균 4.5, 4.0, 4.1점을 기록했습니다. 벤치마킹 표준을 발전시키기 위해, 우리는 벤치마크 품질을 향상시키는 통합 방법론인 BenchFrame을 제안합니다. 사례 연구로, BenchFrame을 HumanEval 벤치마크에 적용하여 주요 한계를 해결했습니다. 이를 통해 (1) 오류 수정, (2) 언어 변환 개선, (3) 테스트 커버리지 확장, (4) 난이도 증가를 특징으로 하는 HumanEvalNext를 개발했습니다. 그런 다음, HumanEval, HumanEvalPlus, HumanEvalNext에서 최신 코드 언어 모델 10개를 평가했습니다. HumanEvalNext에서 모델들은 HumanEval 및 HumanEvalPlus에 비해 각각 31.22%, 19.94%의 pass@1 점수 감소를 보였습니다.
English
Benchmarks are essential for consistent evaluation and reproducibility. The
integration of Artificial Intelligence into Software Engineering (AI4SE) has
given rise to numerous benchmarks for tasks such as code generation and bug
fixing. However, this surge presents challenges: (1) scattered benchmark
knowledge across tasks, (2) difficulty in selecting relevant benchmarks, (3)
the absence of a uniform standard for benchmark development, and (4)
limitations of existing benchmarks. In this paper, we review 173 studies and
identify 204 AI4SE benchmarks. We classify these benchmarks, analyze their
limitations, and expose gaps in practices. Based on our review, we created
BenchScout, a semantic search tool to find relevant benchmarks, using automated
clustering of the contexts from associated studies. We conducted a user study
with 22 participants to evaluate BenchScout's usability, effectiveness, and
intuitiveness which resulted in average scores of 4.5, 4.0, and 4.1 out of 5.
To advance benchmarking standards, we propose BenchFrame, a unified method to
enhance benchmark quality. As a case study, we applied BenchFrame to the
HumanEval benchmark and addressed its main limitations. This led to
HumanEvalNext, featuring (1) corrected errors, (2) improved language
conversion, (3) expanded test coverage, and (4) increased difficulty. We then
evaluated ten state-of-the-art code language models on HumanEval,
HumanEvalPlus, and HumanEvalNext. On HumanEvalNext, models showed a pass@1
score reduction of 31.22% and 19.94% compared to HumanEval and HumanEvalPlus,
respectively.Summary
AI-Generated Summary