RM-RF: Beloningsmodel voor Run-Free Unit Test Evaluatie
RM -RF: Reward Model for Run-Free Unit Test Evaluation
January 19, 2026
Auteurs: Elena Bruches, Daniil Grebenkin, Mikhail Klementev, Vadim Alperovich, Roman Derunets, Dari Baturova, Georgy Mkrtchyan, Oleg Sedukhin, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev
cs.AI
Samenvatting
Wij presenteren RM-RF, een lichtgewicht beloningsmodel voor de run-vrije evaluatie van automatisch gegenereerde unittesten. In plaats van kandidaat-testen herhaaldelijk te compileren en uit te voeren, voorspelt RM-RF uitsluitend op basis van bron- en testcode drie signaalwaarden die normaal gesproken via uitvoering worden verkregen: (1) of de uitgebreide testsuite succesvol compileert en draait, (2) of de gegenereerde testgevallen de codecoverage verhogen, en (3) of de gegenereerde testgevallen de mutatie-killratio verbeteren. Voor de training en evaluatie van RM-RF hebben we een meertalige dataset (Java, Python, Go) samengesteld van focale bestanden, testbestanden en gelabelde kandidaat-testtoevoegingen, gegenereerd door een op uitvoering gebaseerde pijplijn. Tevens publiceren we de bijbehorende dataset en methodologie voor vergelijkende evaluatie. We testten meerdere modelfamilies en afstelmethoden (zero-shot, volledige fine-tuning en PEFT via LoRA) en behaalden een gemiddelde F1-score van 0,69 over de drie doelwaarden. Vergeleken met conventionele compileer-en-uitvoer-instrumenten biedt RM-RF een aanzienlijk lagere latentie en infrastructuurkosten, terwijl het een competitieve voorspellingsnauwkeurigheid levert. Dit maakt snelle, schaalbare feedback mogelijk voor grootschalige testgeneratie en op reinforcement learning gebaseerde code-optimalisatie.
English
We present RM-RF, a lightweight reward model for run-free evaluation of automatically generated unit tests. Instead of repeatedly compiling and executing candidate tests, RM-RF predicts - from source and test code alone - three execution-derived signals: (1) whether the augmented test suite compiles and runs successfully, (2) whether the generated test cases increase code coverage, and (3) whether the generated test cases improve the mutation kill rate. To train and evaluate RM-RF we assemble a multilingual dataset (Java, Python, Go) of focal files, test files, and candidate test additions labeled by an execution-based pipeline, and we release an associated dataset and methodology for comparative evaluation. We tested multiple model families and tuning regimes (zero-shot, full fine-tuning, and PEFT via LoRA), achieving an average F1 of 0.69 across the three targets. Compared to conventional compile-and-run instruments, RM-RF provides substantially lower latency and infrastructure cost while delivering competitive predictive fidelity, enabling fast, scalable feedback for large-scale test generation and RL-based code optimization.