Können LLMs hochwertige Testfälle für Algorithmusprobleme generieren? TestCase-Eval: Eine systematische Bewertung von Fehlerabdeckung und -exposition

papers.abstract

Wir stellen TestCase-Eval vor, einen neuen Benchmark für die systematische Bewertung von LLMs in der Testfallgenerierung. TestCase-Eval umfasst 500 Algorithmusprobleme und 100.000 von Menschen erstellte Lösungen von der Codeforces-Plattform. Es konzentriert sich auf zwei zentrale Aufgaben: (1) Fehlerabdeckung, die misst, wie gut LLM-generierte Testsets verschiedene Eingabeszenarien untersuchen und ein breites Spektrum potenzieller Fehlermodi abdecken. (2) Fehleraufdeckung, die bewertet, ob LLMs einen maßgeschneiderten Testeingang erstellen können, der eine spezifische fehlerhafte Codeimplementierung aufdeckt. Wir bieten eine umfassende Bewertung von 19 state-of-the-art Open-Source- und proprietären LLMs auf TestCase-Eval, die Einblicke in ihre Stärken und Grenzen bei der Generierung effektiver Testfälle für Algorithmusprobleme liefert.

English

We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs in test-case generation. TestCase-Eval includes 500 algorithm problems and 100,000 human-crafted solutions from the Codeforces platform. It focuses on two pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test sets probe diverse input scenarios and cover a wide range of potential failure modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored test input that reveals a specific incorrect code implementation. We provide a comprehensive assessment of 19 state-of-the-art open-source and proprietary LLMs on TestCase-Eval, offering insights into their strengths and limitations in generating effective test cases for algorithm problems.

Können LLMs hochwertige Testfälle für Algorithmusprobleme generieren? TestCase-Eval: Eine systematische Bewertung von Fehlerabdeckung und -exposition

Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure

papers.abstract

Support