TAM-Eval: Оценка больших языковых моделей для автоматизированного сопровождения модульных тестов

Аннотация

Хотя большие языковые модели (LLM) продемонстрировали потенциал в области программной инженерии, их применение для модульного тестирования в значительной степени ограничивается изолированной генерацией тестов или предсказанием оракулов, игнорируя более широкую проблему сопровождения тестовых наборов. Мы представляем TAM-Eval (Test Automated Maintenance Evaluation) — фреймворк и бенчмарк, предназначенные для оценки производительности моделей в трех основных сценариях сопровождения тестов: создание, исправление и обновление тестовых наборов. В отличие от предыдущих работ, ограниченных задачами на уровне функций, TAM-Eval работает на уровне тестовых файлов, сохраняя при этом доступ к полному контексту репозитория в ходе изолированной оценки, что лучше отражает реальные процессы сопровождения. Наш бенчмарк включает 1539 автоматически извлеченных и проверенных сценариев из проектов на Python, Java и Go. TAM-Eval поддерживает системно-независимую оценку как сырых LLM, так и агентских workflow, используя беспризнаковый протокол, основанный на проходимости тестового набора, покрытии кода и мутационном тестировании. Эмпирические результаты показывают, что современные LLM обладают ограниченными возможностями в реалистичных процессах сопровождения тестов и приводят лишь к незначительному улучшению эффективности тестирования. Мы публикуем TAM-Eval в качестве open-source фреймворка для поддержки будущих исследований в области автоматизированного тестирования программного обеспечения. Наши данные и код доступны по адресу https://github.com/trndcenter/TAM-Eval.

English

While Large Language Models (LLMs) have shown promise in software engineering, their application to unit testing remains largely confined to isolated test generation or oracle prediction, neglecting the broader challenge of test suite maintenance. We introduce TAM-Eval (Test Automated Maintenance Evaluation), a framework and benchmark designed to evaluate model performance across three core test maintenance scenarios: creation, repair, and updating of test suites. Unlike prior work limited to function-level tasks, TAM-Eval operates at the test file level, while maintaining access to full repository context during isolated evaluation, better reflecting real-world maintenance workflows. Our benchmark comprises 1,539 automatically extracted and validated scenarios from Python, Java, and Go projects. TAM-Eval supports system-agnostic evaluation of both raw LLMs and agentic workflows, using a reference-free protocol based on test suite pass rate, code coverage, and mutation testing. Empirical results indicate that state-of-the-art LLMs have limited capabilities in realistic test maintenance processes and yield only marginal improvements in test effectiveness. We release TAM-Eval as an open-source framework to support future research in automated software testing. Our data and code are publicly available at https://github.com/trndcenter/TAM-Eval.

TAM-Eval: Оценка больших языковых моделей для автоматизированного сопровождения модульных тестов

TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

Аннотация

Support