Os LLMs Podem Gerar Casos de Teste de Alta Qualidade para Problemas de Algoritmos? TestCase-Eval: Uma Avaliação Sistemática da Cobertura de Falhas e Exposição

Resumo

Apresentamos o TestCase-Eval, um novo benchmark para avaliação sistemática de LLMs na geração de casos de teste. O TestCase-Eval inclui 500 problemas de algoritmos e 100.000 soluções criadas por humanos da plataforma Codeforces. Ele se concentra em duas tarefas fundamentais: (1) Cobertura de Falhas, que mede o quão bem os conjuntos de testes gerados por LLMs exploram cenários de entrada diversos e cobrem uma ampla gama de modos de falha potenciais. (2) Exposição de Falhas, que avalia se os LLMs conseguem criar uma entrada de teste personalizada que revele uma implementação de código incorreta específica. Fornecemos uma avaliação abrangente de 19 LLMs de última geração, tanto de código aberto quanto proprietários, no TestCase-Eval, oferecendo insights sobre seus pontos fortes e limitações na geração de casos de teste eficazes para problemas de algoritmos.

English

We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs in test-case generation. TestCase-Eval includes 500 algorithm problems and 100,000 human-crafted solutions from the Codeforces platform. It focuses on two pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test sets probe diverse input scenarios and cover a wide range of potential failure modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored test input that reveals a specific incorrect code implementation. We provide a comprehensive assessment of 19 state-of-the-art open-source and proprietary LLMs on TestCase-Eval, offering insights into their strengths and limitations in generating effective test cases for algorithm problems.

Os LLMs Podem Gerar Casos de Teste de Alta Qualidade para Problemas de Algoritmos? TestCase-Eval: Uma Avaliação Sistemática da Cobertura de Falhas e Exposição

Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure

Resumo

Support