¿Pueden los LLM generar casos de prueba de alta calidad para problemas de algoritmos? TestCase-Eval: Una evaluación sistemática de la cobertura de fallos y la exposición
Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure
June 13, 2025
Autores: Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao
cs.AI
Resumen
Presentamos TestCase-Eval, un nuevo punto de referencia para la evaluación sistemática de LLMs en la generación de casos de prueba. TestCase-Eval incluye 500 problemas de algoritmos y 100,000 soluciones elaboradas por humanos de la plataforma Codeforces. Se centra en dos tareas fundamentales: (1) Cobertura de Fallos, que mide qué tan bien los conjuntos de pruebas generados por LLMs exploran diversos escenarios de entrada y cubren un amplio rango de modos de fallo potenciales. (2) Exposición de Fallos, que evalúa si los LLMs pueden elaborar una entrada de prueba específica que revele una implementación de código incorrecta. Ofrecemos una evaluación exhaustiva de 19 LLMs de última generación, tanto de código abierto como propietarios, en TestCase-Eval, proporcionando información sobre sus fortalezas y limitaciones en la generación de casos de prueba efectivos para problemas de algoritmos.
English
We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs
in test-case generation. TestCase-Eval includes 500 algorithm problems and
100,000 human-crafted solutions from the Codeforces platform. It focuses on two
pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test
sets probe diverse input scenarios and cover a wide range of potential failure
modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored
test input that reveals a specific incorrect code implementation. We provide a
comprehensive assessment of 19 state-of-the-art open-source and proprietary
LLMs on TestCase-Eval, offering insights into their strengths and limitations
in generating effective test cases for algorithm problems.