TAM-Eval: Evaluación de LLM para el Mantenimiento Automatizado de Pruebas Unitarias

Resumen

Si bien los Modelos de Lenguaje a Gran Escala (LLMs) han mostrado potencial en ingeniería de software, su aplicación a las pruebas unitarias sigue estando mayormente confinada a la generación aislada de pruebas o a la predicción de oráculos, descuidando el desafío más amplio del mantenimiento de suites de prueba. Presentamos TAM-Eval (Evaluación de Mantenimiento Automatizado de Pruebas), un marco de trabajo y benchmark diseñado para evaluar el rendimiento de los modelos en tres escenarios centrales de mantenimiento de pruebas: creación, reparación y actualización de suites de prueba. A diferencia de trabajos previos limitados a tareas a nivel de función, TAM-Eval opera a nivel de archivo de prueba, manteniendo simultáneamente acceso al contexto completo del repositorio durante la evaluación aislada, lo que refleja mejor los flujos de trabajo de mantenimiento del mundo real. Nuestro benchmark comprende 1.539 escenarios extraídos y validados automáticamente de proyectos en Python, Java y Go. TAM-Eval permite la evaluación independiente del sistema tanto de LLMs básicos como de flujos de trabajo agentivos, utilizando un protocolo libre de referencias basado en la tasa de aprobación de la suite de pruebas, la cobertura de código y las pruebas de mutación. Los resultados empíricos indican que los LLMs más avanzados tienen capacidades limitadas en procesos realistas de mantenimiento de pruebas y producen solo mejoras marginales en la efectividad de las mismas. Publicamos TAM-Eval como un marco de trabajo de código abierto para apoyar la investigación futura en pruebas de software automatizadas. Nuestros datos y código están disponibles públicamente en https://github.com/trndcenter/TAM-Eval.

English

While Large Language Models (LLMs) have shown promise in software engineering, their application to unit testing remains largely confined to isolated test generation or oracle prediction, neglecting the broader challenge of test suite maintenance. We introduce TAM-Eval (Test Automated Maintenance Evaluation), a framework and benchmark designed to evaluate model performance across three core test maintenance scenarios: creation, repair, and updating of test suites. Unlike prior work limited to function-level tasks, TAM-Eval operates at the test file level, while maintaining access to full repository context during isolated evaluation, better reflecting real-world maintenance workflows. Our benchmark comprises 1,539 automatically extracted and validated scenarios from Python, Java, and Go projects. TAM-Eval supports system-agnostic evaluation of both raw LLMs and agentic workflows, using a reference-free protocol based on test suite pass rate, code coverage, and mutation testing. Empirical results indicate that state-of-the-art LLMs have limited capabilities in realistic test maintenance processes and yield only marginal improvements in test effectiveness. We release TAM-Eval as an open-source framework to support future research in automated software testing. Our data and code are publicly available at https://github.com/trndcenter/TAM-Eval.

TAM-Eval: Evaluación de LLM para el Mantenimiento Automatizado de Pruebas Unitarias

TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

Resumen

Support