I LLM possono generare casi di test di alta qualità per problemi algoritmici? TestCase-Eval: una valutazione sistematica della copertura dei guasti e dell'esposizione

Abstract

Presentiamo TestCase-Eval, un nuovo benchmark per la valutazione sistematica dei modelli linguistici di grandi dimensioni (LLM) nella generazione di casi di test. TestCase-Eval include 500 problemi algoritmici e 100.000 soluzioni create da esseri umani provenienti dalla piattaforma Codeforces. Si concentra su due compiti fondamentali: (1) Copertura degli Errori, che misura quanto bene i set di test generati dagli LLM esplorino scenari di input diversi e coprano un'ampia gamma di potenziali modalità di fallimento. (2) Rilevamento degli Errori, che valuta se gli LLM siano in grado di creare un input di test su misura che riveli una specifica implementazione di codice errata. Forniamo una valutazione completa di 19 LLM open-source e proprietari all'avanguardia su TestCase-Eval, offrendo approfondimenti sui loro punti di forza e limitazioni nella generazione di casi di test efficaci per problemi algoritmici.

English

We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs in test-case generation. TestCase-Eval includes 500 algorithm problems and 100,000 human-crafted solutions from the Codeforces platform. It focuses on two pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test sets probe diverse input scenarios and cover a wide range of potential failure modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored test input that reveals a specific incorrect code implementation. We provide a comprehensive assessment of 19 state-of-the-art open-source and proprietary LLMs on TestCase-Eval, offering insights into their strengths and limitations in generating effective test cases for algorithm problems.

I LLM possono generare casi di test di alta qualità per problemi algoritmici? TestCase-Eval: una valutazione sistematica della copertura dei guasti e dell'esposizione

Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure

Abstract

Support