ChatPaper.aiChatPaper

RM-RF : Modèle de Récompense pour l'Évaluation de Tests Unitaires Sans Exécution

RM -RF: Reward Model for Run-Free Unit Test Evaluation

January 19, 2026
papers.authors: Elena Bruches, Daniil Grebenkin, Mikhail Klementev, Vadim Alperovich, Roman Derunets, Dari Baturova, Georgy Mkrtchyan, Oleg Sedukhin, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev
cs.AI

papers.abstract

Nous présentons RM-RF, un modèle de récompense léger pour l'évaluation sans exécution de tests unitaires générés automatiquement. Au lieu de compiler et d'exécuter de manière répétée des tests candidats, RM-RF prédit - uniquement à partir du code source et du code de test - trois signaux dérivés de l'exécution : (1) si la suite de tests augmentée compile et s'exécute avec succès, (2) si les cas de test générés augmentent la couverture de code, et (3) si les cas de test générés améliorent le taux de destruction des mutations. Pour entraîner et évaluer RM-RF, nous avons constitué un jeu de données multilingue (Java, Python, Go) de fichiers focaux, de fichiers de test et d'ajouts de tests candidats étiquetés par un pipeline basé sur l'exécution, et nous publions un jeu de données associé ainsi qu'une méthodologie pour l'évaluation comparative. Nous avons testé plusieurs familles de modèles et régimes d'ajustement (zero-shot, fine-tuning complet et PEFT via LoRA), atteignant un F1 moyen de 0,69 sur les trois cibles. Comparé aux instruments conventionnels de compilation et d'exécution, RM-RF offre une latence et un coût d'infrastructure substantiellement réduits tout en fournissant une fidélité prédictive compétitive, permettant un retour d'information rapide et évolutif pour la génération de tests à grande échelle et l'optimisation de code basée sur l'apprentissage par renforcement.
English
We present RM-RF, a lightweight reward model for run-free evaluation of automatically generated unit tests. Instead of repeatedly compiling and executing candidate tests, RM-RF predicts - from source and test code alone - three execution-derived signals: (1) whether the augmented test suite compiles and runs successfully, (2) whether the generated test cases increase code coverage, and (3) whether the generated test cases improve the mutation kill rate. To train and evaluate RM-RF we assemble a multilingual dataset (Java, Python, Go) of focal files, test files, and candidate test additions labeled by an execution-based pipeline, and we release an associated dataset and methodology for comparative evaluation. We tested multiple model families and tuning regimes (zero-shot, full fine-tuning, and PEFT via LoRA), achieving an average F1 of 0.69 across the three targets. Compared to conventional compile-and-run instruments, RM-RF provides substantially lower latency and infrastructure cost while delivering competitive predictive fidelity, enabling fast, scalable feedback for large-scale test generation and RL-based code optimization.
PDF82February 3, 2026