ChatPaper.aiChatPaper

Kunnen LLM's hoogwaardige testgevallen genereren voor algoritmeproblemen? TestCase-Eval: Een systematische evaluatie van foutdekking en blootstelling

Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure

June 13, 2025
Auteurs: Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao
cs.AI

Samenvatting

We introduceren TestCase-Eval, een nieuwe benchmark voor de systematische evaluatie van LLMs bij het genereren van testgevallen. TestCase-Eval omvat 500 algoritmeproblemen en 100.000 door mensen gemaakte oplossingen van het Codeforces-platform. Het richt zich op twee cruciale taken: (1) Foutdekking, die meet hoe goed door LLM gegenereerde testsets diverse invoerscenario's onderzoeken en een breed scala aan potentiële faalmodi dekken. (2) Foutblootstelling, die evalueert of LLMs een op maat gemaakt testinvoer kunnen maken dat een specifieke incorrecte code-implementatie onthult. We bieden een uitgebreide beoordeling van 19 state-of-the-art open-source en propriëtaire LLMs op TestCase-Eval, wat inzicht geeft in hun sterke punten en beperkingen bij het genereren van effectieve testgevallen voor algoritmeproblemen.
English
We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs in test-case generation. TestCase-Eval includes 500 algorithm problems and 100,000 human-crafted solutions from the Codeforces platform. It focuses on two pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test sets probe diverse input scenarios and cover a wide range of potential failure modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored test input that reveals a specific incorrect code implementation. We provide a comprehensive assessment of 19 state-of-the-art open-source and proprietary LLMs on TestCase-Eval, offering insights into their strengths and limitations in generating effective test cases for algorithm problems.
PDF173June 18, 2025