Les modèles de langage peuvent-ils générer des cas de test de haute qualité pour les problèmes algorithmiques ? TestCase-Eval : Une évaluation systématique de la couverture des fautes et de l'exposition
Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure
June 13, 2025
Auteurs: Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao
cs.AI
Résumé
Nous présentons TestCase-Eval, un nouveau benchmark pour l'évaluation systématique des LLM dans la génération de cas de test. TestCase-Eval comprend 500 problèmes algorithmiques et 100 000 solutions élaborées par des humains provenant de la plateforme Codeforces. Il se concentre sur deux tâches essentielles : (1) la Couverture des Défauts, qui mesure dans quelle mesure les ensembles de tests générés par les LLM explorent divers scénarios d'entrée et couvrent un large éventail de modes de défaillance potentiels. (2) l'Exposition des Défauts, qui évalue si les LLM peuvent concevoir une entrée de test sur mesure révélant une implémentation de code incorrecte spécifique. Nous fournissons une évaluation complète de 19 LLM open-source et propriétaires de pointe sur TestCase-Eval, offrant des insights sur leurs forces et leurs limites dans la génération de cas de test efficaces pour les problèmes algorithmiques.
English
We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs
in test-case generation. TestCase-Eval includes 500 algorithm problems and
100,000 human-crafted solutions from the Codeforces platform. It focuses on two
pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test
sets probe diverse input scenarios and cover a wide range of potential failure
modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored
test input that reveals a specific incorrect code implementation. We provide a
comprehensive assessment of 19 state-of-the-art open-source and proprietary
LLMs on TestCase-Eval, offering insights into their strengths and limitations
in generating effective test cases for algorithm problems.