RM-RF: Modello di Ricompensa per la Valutazione di Test di Unità Run-Free
RM -RF: Reward Model for Run-Free Unit Test Evaluation
January 19, 2026
Autori: Elena Bruches, Daniil Grebenkin, Mikhail Klementev, Vadim Alperovich, Roman Derunets, Dari Baturova, Georgy Mkrtchyan, Oleg Sedukhin, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev
cs.AI
Abstract
Presentiamo RM-RF, un modello di reward leggero per la valutazione senza esecuzione di test unitari generati automaticamente. Invece di compilare ed eseguire ripetutamente i test candidati, RM-RF predice - unicamente dal codice sorgente e di test - tre segnali derivati dall'esecuzione: (1) se la suite di test potenziata compila e viene eseguita con successo, (2) se i casi di test generati aumentano la code coverage, e (3) se i casi di test generati migliorano il mutation kill rate. Per addestrare e valutare RM-RF, abbiamo assemblato un dataset multilingue (Java, Python, Go) di file focali, file di test e aggiunte candidate di test etichettate da una pipeline basata sull'esecuzione, e rendiamo pubblico un dataset e una metodologia associati per la valutazione comparativa. Abbiamo testato diverse famiglie di modelli e regimi di tuning (zero-shot, fine-tuning completo e PEFT tramite LoRA), raggiungendo una F1 media di 0,69 sui tre obiettivi. Rispetto agli strumenti convenzionali di compilazione ed esecuzione, RM-RF offre una latenza e un costo infrastrutturale sostanzialmente inferiori, fornendo al contempo una fedeltà predittiva competitiva, abilitando un feedback rapido e scalabile per la generazione di test su larga scala e l'ottimizzazione del codice basata su RL.
English
We present RM-RF, a lightweight reward model for run-free evaluation of automatically generated unit tests. Instead of repeatedly compiling and executing candidate tests, RM-RF predicts - from source and test code alone - three execution-derived signals: (1) whether the augmented test suite compiles and runs successfully, (2) whether the generated test cases increase code coverage, and (3) whether the generated test cases improve the mutation kill rate. To train and evaluate RM-RF we assemble a multilingual dataset (Java, Python, Go) of focal files, test files, and candidate test additions labeled by an execution-based pipeline, and we release an associated dataset and methodology for comparative evaluation. We tested multiple model families and tuning regimes (zero-shot, full fine-tuning, and PEFT via LoRA), achieving an average F1 of 0.69 across the three targets. Compared to conventional compile-and-run instruments, RM-RF provides substantially lower latency and infrastructure cost while delivering competitive predictive fidelity, enabling fast, scalable feedback for large-scale test generation and RL-based code optimization.