RM-RF: Модель Вознаграждения для Оценки Модульных Тестов без Выполнения
RM -RF: Reward Model for Run-Free Unit Test Evaluation
January 19, 2026
Авторы: Elena Bruches, Daniil Grebenkin, Mikhail Klementev, Vadim Alperovich, Roman Derunets, Dari Baturova, Georgy Mkrtchyan, Oleg Sedukhin, Ivan Bondarenko, Nikolay Bushkov, Stanislav Moiseev
cs.AI
Аннотация
Мы представляем RM-RF — облегченную модель оценки для выполнения проверки автоматически сгенерированных модульных тестов без их запуска. Вместо многократной компиляции и выполнения тестов-кандидатов RM-RF предсказывает исключительно на основе исходного и тестового кода три сигнала, обычно получаемые при выполнении: (1) успешность компиляции и запуска дополненного набора тестов, (2) увеличение покрытия кода сгенерированными тестовыми случаями и (3) улучшение показателя убийства мутантов сгенерированными тестовыми случаями. Для обучения и оценки RM-RF мы собрали многозадачный набор данных (Java, Python, Go), содержащий целевые файлы, тестовые файлы и тестовые дополнения-кандидаты, размеченные с помощью пайплайна на основе выполнения, и публикуем соответствующий набор данных и методологию для сравнительной оценки. Мы протестировали несколько семейств моделей и режимов настройки (zero-shot, полная тонкая настройка и PEFT через LoRA), достигнув среднего значения F1, равного 0.69, по всем трем целевым показателям. По сравнению с традиционными инструментами компиляции и запуска RM-RF обеспечивает существенно более низкую задержку и стоимость инфраструктуры, сохраняя при этом конкурентоспособную прогностическую точность, что позволяет обеспечить быструю и масштабируемую обратную связь для крупномасштабной генерации тестов и оптимизации кода на основе обучения с подкреплением.
English
We present RM-RF, a lightweight reward model for run-free evaluation of automatically generated unit tests. Instead of repeatedly compiling and executing candidate tests, RM-RF predicts - from source and test code alone - three execution-derived signals: (1) whether the augmented test suite compiles and runs successfully, (2) whether the generated test cases increase code coverage, and (3) whether the generated test cases improve the mutation kill rate. To train and evaluate RM-RF we assemble a multilingual dataset (Java, Python, Go) of focal files, test files, and candidate test additions labeled by an execution-based pipeline, and we release an associated dataset and methodology for comparative evaluation. We tested multiple model families and tuning regimes (zero-shot, full fine-tuning, and PEFT via LoRA), achieving an average F1 of 0.69 across the three targets. Compared to conventional compile-and-run instruments, RM-RF provides substantially lower latency and infrastructure cost while delivering competitive predictive fidelity, enabling fast, scalable feedback for large-scale test generation and RL-based code optimization.