Benchmarken van AI-modellen in Software Engineering: Een Review, Zoekinstrument en Verbeterprotocol
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol
March 7, 2025
Auteurs: Roham Koohestani, Philippe de Bekker, Maliheh Izadi
cs.AI
Samenvatting
Benchmarks zijn essentieel voor consistente evaluatie en reproduceerbaarheid. De integratie van Kunstmatige Intelligentie in Software Engineering (AI4SE) heeft geleid tot talrijke benchmarks voor taken zoals codegeneratie en bugfixing. Deze toename brengt echter uitdagingen met zich mee: (1) verspreide benchmarkkennis over verschillende taken, (2) moeilijkheden bij het selecteren van relevante benchmarks, (3) het ontbreken van een uniforme standaard voor benchmarkontwikkeling, en (4) beperkingen van bestaande benchmarks. In dit artikel bespreken we 173 studies en identificeren we 204 AI4SE-benchmarks. We classificeren deze benchmarks, analyseren hun beperkingen en leggen hiaten in de praktijken bloot. Op basis van onze review hebben we BenchScout ontwikkeld, een semantisch zoekinstrument om relevante benchmarks te vinden, door middel van geautomatiseerde clustering van de contexten uit bijbehorende studies. We hebben een gebruikersstudie uitgevoerd met 22 deelnemers om de bruikbaarheid, effectiviteit en intuïtiviteit van BenchScout te evalueren, wat resulteerde in gemiddelde scores van 4.5, 4.0 en 4.1 op een schaal van 5. Om benchmarkstandaarden te bevorderen, stellen we BenchFrame voor, een uniforme methode om de kwaliteit van benchmarks te verbeteren. Als casestudy hebben we BenchFrame toegepast op de HumanEval-benchmark en de belangrijkste beperkingen ervan aangepakt. Dit leidde tot HumanEvalNext, met (1) gecorrigeerde fouten, (2) verbeterde taalconversie, (3) uitgebreide testdekking en (4) verhoogde moeilijkheidsgraad. Vervolgens hebben we tien state-of-the-art code-taalmodellen geëvalueerd op HumanEval, HumanEvalPlus en HumanEvalNext. Op HumanEvalNext lieten de modellen een daling zien in de pass@1-score van respectievelijk 31.22% en 19.94% vergeleken met HumanEval en HumanEvalPlus.
English
Benchmarks are essential for consistent evaluation and reproducibility. The
integration of Artificial Intelligence into Software Engineering (AI4SE) has
given rise to numerous benchmarks for tasks such as code generation and bug
fixing. However, this surge presents challenges: (1) scattered benchmark
knowledge across tasks, (2) difficulty in selecting relevant benchmarks, (3)
the absence of a uniform standard for benchmark development, and (4)
limitations of existing benchmarks. In this paper, we review 173 studies and
identify 204 AI4SE benchmarks. We classify these benchmarks, analyze their
limitations, and expose gaps in practices. Based on our review, we created
BenchScout, a semantic search tool to find relevant benchmarks, using automated
clustering of the contexts from associated studies. We conducted a user study
with 22 participants to evaluate BenchScout's usability, effectiveness, and
intuitiveness which resulted in average scores of 4.5, 4.0, and 4.1 out of 5.
To advance benchmarking standards, we propose BenchFrame, a unified method to
enhance benchmark quality. As a case study, we applied BenchFrame to the
HumanEval benchmark and addressed its main limitations. This led to
HumanEvalNext, featuring (1) corrected errors, (2) improved language
conversion, (3) expanded test coverage, and (4) increased difficulty. We then
evaluated ten state-of-the-art code language models on HumanEval,
HumanEvalPlus, and HumanEvalNext. On HumanEvalNext, models showed a pass@1
score reduction of 31.22% and 19.94% compared to HumanEval and HumanEvalPlus,
respectively.Summary
AI-Generated Summary