RM-RF: Modelo de Recompensa para Evaluación de Pruebas Unitarias Libres de Ejecución

Resumen

Presentamos RM-RF, un modelo de recompensa ligero para la evaluación sin ejecución de pruebas unitarias generadas automáticamente. En lugar de compilar y ejecutar repetidamente pruebas candidatas, RM-RF predice —únicamente a partir del código fuente y de prueba— tres señales derivadas de la ejecución: (1) si la suite de pruebas aumentada se compila y ejecuta correctamente, (2) si los casos de prueba generados aumentan la cobertura de código, y (3) si los casos de prueba generados mejoran la tasa de eliminación de mutantes. Para entrenar y evaluar RM-RF, reunimos un conjunto de datos multilingüe (Java, Python, Go) de archivos focales, archivos de prueba y adiciones de prueba candidatas etiquetadas mediante un pipeline basado en ejecución, y publicamos un conjunto de datos y una metodología asociados para la evaluación comparativa. Probamos múltiples familias de modelos y regímenes de ajuste (zero-shot, fine-tuning completo y PEFT mediante LoRA), logrando un F1 promedio de 0.69 en los tres objetivos. En comparación con los instrumentos convencionales de compilación y ejecución, RM-RF ofrece una latencia y un coste de infraestructura sustancialmente menores, al tiempo que proporciona una fidelidad predictiva competitiva, permitiendo una retroalimentación rápida y escalable para la generación de pruebas a gran escala y la optimización de código basada en aprendizaje por refuerzo.

English

We present RM-RF, a lightweight reward model for run-free evaluation of automatically generated unit tests. Instead of repeatedly compiling and executing candidate tests, RM-RF predicts - from source and test code alone - three execution-derived signals: (1) whether the augmented test suite compiles and runs successfully, (2) whether the generated test cases increase code coverage, and (3) whether the generated test cases improve the mutation kill rate. To train and evaluate RM-RF we assemble a multilingual dataset (Java, Python, Go) of focal files, test files, and candidate test additions labeled by an execution-based pipeline, and we release an associated dataset and methodology for comparative evaluation. We tested multiple model families and tuning regimes (zero-shot, full fine-tuning, and PEFT via LoRA), achieving an average F1 of 0.69 across the three targets. Compared to conventional compile-and-run instruments, RM-RF provides substantially lower latency and infrastructure cost while delivering competitive predictive fidelity, enabling fast, scalable feedback for large-scale test generation and RL-based code optimization.

RM-RF: Modelo de Recompensa para Evaluación de Pruebas Unitarias Libres de Ejecución

RM -RF: Reward Model for Run-Free Unit Test Evaluation

Resumen

Support