TAM-Eval : Évaluation des LLM pour la maintenance automatisée des tests unitaires

papers.abstract

Si les grands modèles de langage (LLM) ont montré des potentialités en génie logiciel, leur application aux tests unitaires reste largement confinée à la génération isolée de tests ou à la prédiction d'oracles, négligeant le défi plus large de la maintenance des suites de tests. Nous présentons TAM-Eval (Test Automated Maintenance Evaluation), un cadre d'évaluation et un benchmark conçus pour évaluer les performances des modèles dans trois scénarios fondamentaux de maintenance des tests : la création, la réparation et la mise à jour des suites de tests. Contrairement aux travaux antérieurs limités à des tâches au niveau fonction, TAM-Eval opère au niveau du fichier de test, tout en maintenant l'accès au contexte complet du dépôt lors de l'évaluation isolée, reflétant mieux les flux de travail réels de maintenance. Notre benchmark comprend 1 539 scénarios extraits et validés automatiquement à partir de projets Python, Java et Go. TAM-Eval prend en charge l'évaluation indépendante du système pour les LLM bruts et les workflows agentiques, en utilisant un protocole sans référence basé sur le taux de réussite des suites de tests, la couverture de code et les tests de mutation. Les résultats empiriques indiquent que les LLM de pointe ont des capacités limitées dans les processus réalistes de maintenance des tests et n'apportent que des améliorations marginales à l'efficacité des tests. Nous publions TAM-Eval en tant que cadre open-source pour soutenir les futures recherches sur les tests logiciels automatisés. Nos données et notre code sont disponibles publiquement à l'adresse https://github.com/trndcenter/TAM-Eval.

English

While Large Language Models (LLMs) have shown promise in software engineering, their application to unit testing remains largely confined to isolated test generation or oracle prediction, neglecting the broader challenge of test suite maintenance. We introduce TAM-Eval (Test Automated Maintenance Evaluation), a framework and benchmark designed to evaluate model performance across three core test maintenance scenarios: creation, repair, and updating of test suites. Unlike prior work limited to function-level tasks, TAM-Eval operates at the test file level, while maintaining access to full repository context during isolated evaluation, better reflecting real-world maintenance workflows. Our benchmark comprises 1,539 automatically extracted and validated scenarios from Python, Java, and Go projects. TAM-Eval supports system-agnostic evaluation of both raw LLMs and agentic workflows, using a reference-free protocol based on test suite pass rate, code coverage, and mutation testing. Empirical results indicate that state-of-the-art LLMs have limited capabilities in realistic test maintenance processes and yield only marginal improvements in test effectiveness. We release TAM-Eval as an open-source framework to support future research in automated software testing. Our data and code are publicly available at https://github.com/trndcenter/TAM-Eval.

TAM-Eval : Évaluation des LLM pour la maintenance automatisée des tests unitaires

TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

papers.abstract

Support