¿Pueden los LLM generar casos de prueba de alta calidad para problemas de algoritmos? TestCase-Eval: Una evaluación sistemática de la cobertura de fallos y la exposición

Resumen

Presentamos TestCase-Eval, un nuevo punto de referencia para la evaluación sistemática de LLMs en la generación de casos de prueba. TestCase-Eval incluye 500 problemas de algoritmos y 100,000 soluciones elaboradas por humanos de la plataforma Codeforces. Se centra en dos tareas fundamentales: (1) Cobertura de Fallos, que mide qué tan bien los conjuntos de pruebas generados por LLMs exploran diversos escenarios de entrada y cubren un amplio rango de modos de fallo potenciales. (2) Exposición de Fallos, que evalúa si los LLMs pueden elaborar una entrada de prueba específica que revele una implementación de código incorrecta. Ofrecemos una evaluación exhaustiva de 19 LLMs de última generación, tanto de código abierto como propietarios, en TestCase-Eval, proporcionando información sobre sus fortalezas y limitaciones en la generación de casos de prueba efectivos para problemas de algoritmos.

English

We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs in test-case generation. TestCase-Eval includes 500 algorithm problems and 100,000 human-crafted solutions from the Codeforces platform. It focuses on two pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test sets probe diverse input scenarios and cover a wide range of potential failure modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored test input that reveals a specific incorrect code implementation. We provide a comprehensive assessment of 19 state-of-the-art open-source and proprietary LLMs on TestCase-Eval, offering insights into their strengths and limitations in generating effective test cases for algorithm problems.

¿Pueden los LLM generar casos de prueba de alta calidad para problemas de algoritmos? TestCase-Eval: Una evaluación sistemática de la cobertura de fallos y la exposición

Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure

Resumen

Support