TAM-Eval: Bewertung von LLMs für die automatisierte Wartung von Unit-Tests

papers.abstract

Während Large Language Models (LLMs) vielversprechende Ansätze in der Softwareentwicklung gezeigt haben, beschränkt sich ihre Anwendung auf Unit-Tests weitgehend auf isolierte Testgenerierung oder Oracle-Vorhersage und vernachlässigt die umfassendere Herausforderung der Testsuite-Wartung. Wir stellen TAM-Eval (Test Automated Maintenance Evaluation) vor, ein Framework und Benchmark, das entwickelt wurde, um die Modellleistung in drei zentralen Testszenarien der Wartung zu bewerten: Erstellung, Reparatur und Aktualisierung von Testsuiten. Im Gegensatz zu früheren Arbeiten, die auf Funktionsebene beschränkt sind, operiert TAM-Eval auf Testdateiebene, behält jedoch während der isolierten Evaluation Zugriff auf den vollständigen Repository-Kontext, was realistischere Wartungsabläufe widerspiegelt. Unser Benchmark umfasst 1.539 automatisch extrahierte und validierte Szenarien aus Python-, Java- und Go-Projekten. TAM-Eval unterstützt systemagnostische Evaluation sowohl von reinen LLMs als auch von agentenbasierten Workflows mittels eines referenzfreien Protokolls, das auf Testsuite-Bestehensrate, Code-Coverage und Mutationstesting basiert. Empirische Ergebnisse zeigen, dass state-of-the-art LLMs nur begrenzte Fähigkeiten in realistischen Testwartungsprozessen aufweisen und lediglich marginale Verbesserungen der Testeffektivität erzielen. Wir veröffentlichen TAM-Eval als Open-Source-Framework zur Unterstützung zukünftiger Forschung im Bereich automatisiertes Softwaretesting. Unsere Daten und unser Code sind öffentlich verfügbar unter https://github.com/trndcenter/TAM-Eval.

English

While Large Language Models (LLMs) have shown promise in software engineering, their application to unit testing remains largely confined to isolated test generation or oracle prediction, neglecting the broader challenge of test suite maintenance. We introduce TAM-Eval (Test Automated Maintenance Evaluation), a framework and benchmark designed to evaluate model performance across three core test maintenance scenarios: creation, repair, and updating of test suites. Unlike prior work limited to function-level tasks, TAM-Eval operates at the test file level, while maintaining access to full repository context during isolated evaluation, better reflecting real-world maintenance workflows. Our benchmark comprises 1,539 automatically extracted and validated scenarios from Python, Java, and Go projects. TAM-Eval supports system-agnostic evaluation of both raw LLMs and agentic workflows, using a reference-free protocol based on test suite pass rate, code coverage, and mutation testing. Empirical results indicate that state-of-the-art LLMs have limited capabilities in realistic test maintenance processes and yield only marginal improvements in test effectiveness. We release TAM-Eval as an open-source framework to support future research in automated software testing. Our data and code are publicly available at https://github.com/trndcenter/TAM-Eval.

TAM-Eval: Bewertung von LLMs für die automatisierte Wartung von Unit-Tests

TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

papers.abstract

Support