LLM이 알고리즘 문제를 위한 고품질 테스트 케이스를 생성할 수 있는가? TestCase-Eval: 결함 커버리지와 노출에 대한 체계적 평가
Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure
June 13, 2025
저자: Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao
cs.AI
초록
테스트 케이스 생성에서 대규모 언어 모델(LLM)의 체계적인 평가를 위한 새로운 벤치마크인 TestCase-Eval을 소개한다. TestCase-Eval은 Codeforces 플랫폼에서 수집된 500개의 알고리즘 문제와 100,000개의 인간이 작성한 솔루션으로 구성되어 있다. 이 벤치마크는 두 가지 핵심 과제에 초점을 맞추고 있다: (1) 결함 커버리지(Fault Coverage)는 LLM이 생성한 테스트 세트가 다양한 입력 시나리오를 탐색하고 잠재적인 실패 모드를 광범위하게 커버하는지를 측정한다. (2) 결함 노출(Fault Exposure)은 LLM이 특정한 잘못된 코드 구현을 드러내는 맞춤형 테스트 입력을 작성할 수 있는지를 평가한다. 우리는 TestCase-Eval을 통해 19개의 최신 오픈소스 및 상용 LLM에 대한 포괄적인 평가를 제공하며, 알고리즘 문제에 대한 효과적인 테스트 케이스 생성에서 이들의 강점과 한계를 분석한다.
English
We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs
in test-case generation. TestCase-Eval includes 500 algorithm problems and
100,000 human-crafted solutions from the Codeforces platform. It focuses on two
pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test
sets probe diverse input scenarios and cover a wide range of potential failure
modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored
test input that reveals a specific incorrect code implementation. We provide a
comprehensive assessment of 19 state-of-the-art open-source and proprietary
LLMs on TestCase-Eval, offering insights into their strengths and limitations
in generating effective test cases for algorithm problems.