ChatPaper.aiChatPaper

Les modèles de langage peuvent-ils générer des cas de test de haute qualité pour les problèmes algorithmiques ? TestCase-Eval : Une évaluation systématique de la couverture des fautes et de l'exposition

Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure

June 13, 2025
Auteurs: Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao
cs.AI

Résumé

Nous présentons TestCase-Eval, un nouveau benchmark pour l'évaluation systématique des LLM dans la génération de cas de test. TestCase-Eval comprend 500 problèmes algorithmiques et 100 000 solutions élaborées par des humains provenant de la plateforme Codeforces. Il se concentre sur deux tâches essentielles : (1) la Couverture des Défauts, qui mesure dans quelle mesure les ensembles de tests générés par les LLM explorent divers scénarios d'entrée et couvrent un large éventail de modes de défaillance potentiels. (2) l'Exposition des Défauts, qui évalue si les LLM peuvent concevoir une entrée de test sur mesure révélant une implémentation de code incorrecte spécifique. Nous fournissons une évaluation complète de 19 LLM open-source et propriétaires de pointe sur TestCase-Eval, offrant des insights sur leurs forces et leurs limites dans la génération de cas de test efficaces pour les problèmes algorithmiques.
English
We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs in test-case generation. TestCase-Eval includes 500 algorithm problems and 100,000 human-crafted solutions from the Codeforces platform. It focuses on two pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test sets probe diverse input scenarios and cover a wide range of potential failure modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored test input that reveals a specific incorrect code implementation. We provide a comprehensive assessment of 19 state-of-the-art open-source and proprietary LLMs on TestCase-Eval, offering insights into their strengths and limitations in generating effective test cases for algorithm problems.
PDF152June 18, 2025