RM-RF: Modelo de Recompensa para Avaliação de Testes de Unidade sem Execução

Resumo

Apresentamos o RM-RF, um modelo de recompensa leve para avaliação livre de execução de testes unitários gerados automaticamente. Em vez de compilar e executar repetidamente testes candidatos, o RM-RF prevê - apenas a partir do código-fonte e do código de teste - três sinais derivados da execução: (1) se o conjunto de testes aumentado compila e é executado com sucesso, (2) se os casos de teste gerados aumentam a cobertura de código, e (3) se os casos de teste gerados melhoram a taxa de eliminação de mutantes. Para treinar e avaliar o RM-RF, reunimos um conjunto de dados multilíngue (Java, Python, Go) de arquivos focais, arquivos de teste e adições de teste candidatas rotuladas por um *pipeline* baseado em execução, e disponibilizamos um conjunto de dados e metodologia associados para avaliação comparativa. Testamos várias famílias de modelos e regimes de ajuste (*zero-shot*, *fine-tuning* completo e PEFT via LoRA), alcançando um F1 médio de 0,69 nos três objetivos. Em comparação com os instrumentos convencionais de compilação e execução, o RM-RF oferece uma latência e um custo de infraestrutura substancialmente menores, fornecendo ao mesmo tempo uma fidelidade preditiva competitiva, permitindo um *feedback* rápido e escalável para geração de testes em larga escala e otimização de código baseada em Aprendizado por Reforço.

English

We present RM-RF, a lightweight reward model for run-free evaluation of automatically generated unit tests. Instead of repeatedly compiling and executing candidate tests, RM-RF predicts - from source and test code alone - three execution-derived signals: (1) whether the augmented test suite compiles and runs successfully, (2) whether the generated test cases increase code coverage, and (3) whether the generated test cases improve the mutation kill rate. To train and evaluate RM-RF we assemble a multilingual dataset (Java, Python, Go) of focal files, test files, and candidate test additions labeled by an execution-based pipeline, and we release an associated dataset and methodology for comparative evaluation. We tested multiple model families and tuning regimes (zero-shot, full fine-tuning, and PEFT via LoRA), achieving an average F1 of 0.69 across the three targets. Compared to conventional compile-and-run instruments, RM-RF provides substantially lower latency and infrastructure cost while delivering competitive predictive fidelity, enabling fast, scalable feedback for large-scale test generation and RL-based code optimization.

RM-RF: Modelo de Recompensa para Avaliação de Testes de Unidade sem Execução

RM -RF: Reward Model for Run-Free Unit Test Evaluation

Resumo

Support