Могут ли языковые модели создавать высококачественные тестовые примеры для алгоритмических задач? TestCase-Eval: Систематическая оценка покрытия ошибок и их выявления

Аннотация

Мы представляем TestCase-Eval — новый эталонный набор для систематической оценки языковых моделей (LLM) в генерации тестовых случаев. TestCase-Eval включает 500 алгоритмических задач и 100 000 решений, созданных людьми, с платформы Codeforces. Он сосредоточен на двух ключевых задачах: (1) Покрытие ошибок, которое измеряет, насколько хорошо тестовые наборы, сгенерированные LLM, исследуют различные входные сценарии и охватывают широкий спектр потенциальных режимов сбоев. (2) Выявление ошибок, которое оценивает, способны ли LLM создать специализированный тестовый вход, который выявляет конкретную некорректную реализацию кода. Мы проводим всестороннюю оценку 19 современных открытых и проприетарных LLM на TestCase-Eval, предоставляя понимание их сильных сторон и ограничений в генерации эффективных тестовых случаев для алгоритмических задач.

English

We introduce TestCase-Eval, a new benchmark for systematic evaluation of LLMs in test-case generation. TestCase-Eval includes 500 algorithm problems and 100,000 human-crafted solutions from the Codeforces platform. It focuses on two pivotal tasks: (1) Fault Coverage, which measures how well LLM-generated test sets probe diverse input scenarios and cover a wide range of potential failure modes. (2) Fault Exposure, which evaluates whether LLMs can craft a tailored test input that reveals a specific incorrect code implementation. We provide a comprehensive assessment of 19 state-of-the-art open-source and proprietary LLMs on TestCase-Eval, offering insights into their strengths and limitations in generating effective test cases for algorithm problems.