TAM-Eval: Avaliando LLMs para a Manutenção Automatizada de Testes de Unidade

Resumo

Embora os Modelos de Linguagem de Grande Porte (LLMs) tenham mostrado potencial em engenharia de software, sua aplicação em teste de unidade permanece amplamente confinada à geração isolada de testes ou à predição de oráculos, negligenciando o desafio mais amplo da manutenção de conjuntos de testes. Apresentamos o TAM-Eval (Test Automated Maintenance Evaluation), uma estrutura e benchmark concebidos para avaliar o desempenho de modelos em três cenários centrais de manutenção de testes: criação, reparo e atualização de conjuntos de testes. Diferente de trabalhos anteriores limitados a tarefas em nível de função, o TAM-Eval opera em nível de arquivo de teste, mantendo acesso ao contexto completo do repositório durante a avaliação isolada, refletindo melhor os fluxos de trabalho de manutenção do mundo real. Nosso benchmark compreende 1.539 cenários extraídos e validados automaticamente de projetos em Python, Java e Go. O TAM-Eval suporta avaliação independente de sistema para LLMs brutos e fluxos de trabalho agentivos, usando um protocolo livre de referência baseado na taxa de aprovação do conjunto de testes, cobertura de código e teste de mutação. Resultados empíricos indicam que LLMs state-of-the-art possuem capacidades limitadas em processos realistas de manutenção de testes e produzem apenas melhorias marginais na eficácia dos testes. Disponibilizamos o TAM-Eval como uma estrutura de código aberto para apoiar pesquisas futuras em teste de software automatizado. Nossos dados e código estão publicamente disponíveis em https://github.com/trndcenter/TAM-Eval.

English

While Large Language Models (LLMs) have shown promise in software engineering, their application to unit testing remains largely confined to isolated test generation or oracle prediction, neglecting the broader challenge of test suite maintenance. We introduce TAM-Eval (Test Automated Maintenance Evaluation), a framework and benchmark designed to evaluate model performance across three core test maintenance scenarios: creation, repair, and updating of test suites. Unlike prior work limited to function-level tasks, TAM-Eval operates at the test file level, while maintaining access to full repository context during isolated evaluation, better reflecting real-world maintenance workflows. Our benchmark comprises 1,539 automatically extracted and validated scenarios from Python, Java, and Go projects. TAM-Eval supports system-agnostic evaluation of both raw LLMs and agentic workflows, using a reference-free protocol based on test suite pass rate, code coverage, and mutation testing. Empirical results indicate that state-of-the-art LLMs have limited capabilities in realistic test maintenance processes and yield only marginal improvements in test effectiveness. We release TAM-Eval as an open-source framework to support future research in automated software testing. Our data and code are publicly available at https://github.com/trndcenter/TAM-Eval.

TAM-Eval: Avaliando LLMs para a Manutenção Automatizada de Testes de Unidade

TAM-Eval: Evaluating LLMs for Automated Unit Test Maintenance

Resumo

Support