ChatPaper.aiChatPaper

Können LLMs hochwertige Testfälle für Algorithmusprobleme generieren? TestCase-Eval: Eine systematische Bewertung von Fehlerabdeckung und -exposition

Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure

June 13, 2025
Autoren: Zheyuan Yang, Zexi Kuang, Xue Xia, Yilun Zhao
cs.AI

Zusammenfassung

Wir stellen TestCase-Eval vor, einen neuen Benchmark für die systematische Bewertung von LLMs in der Testfallgenerierung. TestCase-Eval umfasst 500 Algorithmusprobleme und 100.000 von Menschen erstellte Lösungen von der Codeforces-Plattform. Es konzentriert sich auf zwei zentrale Aufgaben: (1) Fehlerabdeckung, die misst, wie gut LLM-generierte Testsets verschiedene Eingabeszenarien untersuchen und ein breites Spektrum potenzieller Fehlermodi abdecken. (2) Fehleraufdeckung, die bewertet, ob LLMs einen maßgeschneiderten Testeingang erstellen können, der eine spezifische fehlerhafte Codeimplementierung aufdeckt. Wir bieten eine umfassende Bewertung von 19 state-of-the-art Open-Source- und proprietären LLMs auf TestCase-Eval, die Einblicke in ihre Stärken und Grenzen bei der Generierung effektiver Testfälle für Algorithmusprobleme liefert.
English
We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs in test-case generation. TestCase-Eval includes 500 algorithm problems and 100,000 human-crafted solutions from the Codeforces platform. It focuses on two pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test sets probe diverse input scenarios and cover a wide range of potential failure modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored test input that reveals a specific incorrect code implementation. We provide a comprehensive assessment of 19 state-of-the-art open-source and proprietary LLMs on TestCase-Eval, offering insights into their strengths and limitations in generating effective test cases for algorithm problems.
PDF152June 18, 2025