Können LLMs hochwertige Testfälle für Algorithmusprobleme generieren? TestCase-Eval: Eine systematische Bewertung von Fehlerabdeckung und -exposition
Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure
June 13, 2025
Autoren: Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao
cs.AI
Zusammenfassung
Wir stellen TestCase-Eval vor, einen neuen Benchmark für die systematische Bewertung von LLMs in der Testfallgenerierung. TestCase-Eval umfasst 500 Algorithmusprobleme und 100.000 von Menschen erstellte Lösungen von der Codeforces-Plattform. Es konzentriert sich auf zwei zentrale Aufgaben: (1) Fehlerabdeckung, die misst, wie gut LLM-generierte Testsets verschiedene Eingabeszenarien untersuchen und ein breites Spektrum potenzieller Fehlermodi abdecken. (2) Fehleraufdeckung, die bewertet, ob LLMs einen maßgeschneiderten Testeingang erstellen können, der eine spezifische fehlerhafte Codeimplementierung aufdeckt. Wir bieten eine umfassende Bewertung von 19 state-of-the-art Open-Source- und proprietären LLMs auf TestCase-Eval, die Einblicke in ihre Stärken und Grenzen bei der Generierung effektiver Testfälle für Algorithmusprobleme liefert.
English
We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs
in test-case generation. TestCase-Eval includes 500 algorithm problems and
100,000 human-crafted solutions from the Codeforces platform. It focuses on two
pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test
sets probe diverse input scenarios and cover a wide range of potential failure
modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored
test input that reveals a specific incorrect code implementation. We provide a
comprehensive assessment of 19 state-of-the-art open-source and proprietary
LLMs on TestCase-Eval, offering insights into their strengths and limitations
in generating effective test cases for algorithm problems.