I LLM possono generare casi di test di alta qualità per problemi algoritmici? TestCase-Eval: una valutazione sistematica della copertura dei guasti e dell'esposizione
Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure
June 13, 2025
Autori: Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao
cs.AI
Abstract
Presentiamo TestCase-Eval, un nuovo benchmark per la valutazione sistematica dei modelli linguistici di grandi dimensioni (LLM) nella generazione di casi di test. TestCase-Eval include 500 problemi algoritmici e 100.000 soluzioni create da esseri umani provenienti dalla piattaforma Codeforces. Si concentra su due compiti fondamentali: (1) Copertura degli Errori, che misura quanto bene i set di test generati dagli LLM esplorino scenari di input diversi e coprano un'ampia gamma di potenziali modalità di fallimento. (2) Rilevamento degli Errori, che valuta se gli LLM siano in grado di creare un input di test su misura che riveli una specifica implementazione di codice errata. Forniamo una valutazione completa di 19 LLM open-source e proprietari all'avanguardia su TestCase-Eval, offrendo approfondimenti sui loro punti di forza e limitazioni nella generazione di casi di test efficaci per problemi algoritmici.
English
We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs
in test-case generation. TestCase-Eval includes 500 algorithm problems and
100,000 human-crafted solutions from the Codeforces platform. It focuses on two
pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test
sets probe diverse input scenarios and cover a wide range of potential failure
modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored
test input that reveals a specific incorrect code implementation. We provide a
comprehensive assessment of 19 state-of-the-art open-source and proprietary
LLMs on TestCase-Eval, offering insights into their strengths and limitations
in generating effective test cases for algorithm problems.