Kunnen LLM's hoogwaardige testgevallen genereren voor algoritmeproblemen? TestCase-Eval: Een systematische evaluatie van foutdekking en blootstelling
Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure
June 13, 2025
Auteurs: Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao
cs.AI
Samenvatting
We introduceren TestCase-Eval, een nieuwe benchmark voor de systematische evaluatie van LLMs bij het genereren van testgevallen. TestCase-Eval omvat 500 algoritmeproblemen en 100.000 door mensen gemaakte oplossingen van het Codeforces-platform. Het richt zich op twee cruciale taken: (1) Foutdekking, die meet hoe goed door LLM gegenereerde testsets diverse invoerscenario's onderzoeken en een breed scala aan potentiële faalmodi dekken. (2) Foutblootstelling, die evalueert of LLMs een op maat gemaakt testinvoer kunnen maken dat een specifieke incorrecte code-implementatie onthult. We bieden een uitgebreide beoordeling van 19 state-of-the-art open-source en propriëtaire LLMs op TestCase-Eval, wat inzicht geeft in hun sterke punten en beperkingen bij het genereren van effectieve testgevallen voor algoritmeproblemen.
English
We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs
in test-case generation. TestCase-Eval includes 500 algorithm problems and
100,000 human-crafted solutions from the Codeforces platform. It focuses on two
pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test
sets probe diverse input scenarios and cover a wide range of potential failure
modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored
test input that reveals a specific incorrect code implementation. We provide a
comprehensive assessment of 19 state-of-the-art open-source and proprietary
LLMs on TestCase-Eval, offering insights into their strengths and limitations
in generating effective test cases for algorithm problems.