RM-RF: Belohnungsmodell für lauffreie Unit-Test-Bewertung
RM -RF: Reward Model for Run-Free Unit Test Evaluation
January 19, 2026
papers.authors: Elena Bruches, Daniil Grebenkin, Mikhail Klementev, Vadim Alperovich, Roman Derunets, Dari Baturova, Georgy Mkrtchyan, Oleg Sedukhin, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev
cs.AI
papers.abstract
Wir stellen RM-RF vor, ein leichtgewichtiges Reward-Modell für die ausführungsfreie Bewertung automatisch generierter Unit-Tests. Anstatt Kandidatentests wiederholt zu kompilieren und auszuführen, sagt RM-RF – allein aus Quell- und Testcode – drei ausführungsbezogene Signale vorher: (1) ob die erweiterte Testsuite erfolgreich kompiliert und läuft, (2) ob die generierten Testfälle die Codeabdeckung erhöhen und (3) ob die generierten Testfälle die Mutationsabdeckungsrate (Mutation Kill Rate) verbessern. Zur Schulung und Bewertung von RM-RF stellen wir einen mehrsprachigen Datensatz (Java, Python, Go) von Fokusdateien, Testdateien und gekennzeichneten Kandidatentest-Ergänzungen zusammen, die durch eine ausführungsbasierte Pipeline gelabelt wurden, und wir veröffentlichen einen zugehörigen Datensatz und eine Methodik für die vergleichende Bewertung. Wir testeten mehrere Modellfamilien und Feinabstimmungsregime (Zero-Shot, vollständiges Fine-Tuning und PEFT via LoRA) und erreichten einen durchschnittlichen F1-Score von 0,69 über die drei Ziele hinweg. Im Vergleich zu konventionellen Kompilier- und Ausführungsinstrumenten bietet RM-RF eine deutlich geringere Latenz und geringere Infrastrukturkosten bei gleichzeitig wettbewerbsfähiger prädiktiver Treffsicherheit, was eine schnelle, skalierbare Rückmeldung für großskalige Testgenerierung und RL-basierte Codeoptimierung ermöglicht.
English
We present RM-RF, a lightweight reward model for run-free evaluation of automatically generated unit tests. Instead of repeatedly compiling and executing candidate tests, RM-RF predicts - from source and test code alone - three execution-derived signals: (1) whether the augmented test suite compiles and runs successfully, (2) whether the generated test cases increase code coverage, and (3) whether the generated test cases improve the mutation kill rate. To train and evaluate RM-RF we assemble a multilingual dataset (Java, Python, Go) of focal files, test files, and candidate test additions labeled by an execution-based pipeline, and we release an associated dataset and methodology for comparative evaluation. We tested multiple model families and tuning regimes (zero-shot, full fine-tuning, and PEFT via LoRA), achieving an average F1 of 0.69 across the three targets. Compared to conventional compile-and-run instruments, RM-RF provides substantially lower latency and infrastructure cost while delivering competitive predictive fidelity, enabling fast, scalable feedback for large-scale test generation and RL-based code optimization.