Co-évolution d'un codeur LLM et d'un testeur unitaire via l'apprentissage par renforcement

papers.abstract

Nous proposons CURE, un nouveau cadre d'apprentissage par renforcement doté d'une conception de récompense dédiée qui co-évolue les capacités de génération de code et de tests unitaires en fonction de leurs résultats d'interaction, sans aucun code de référence comme supervision. Cette approche permet un entraînement flexible et évolutif et permet au testeur unitaire d'apprendre directement des erreurs du codeur. Nos modèles ReasonFlux-Coder-7B et 14B dérivés améliorent la précision de la génération de code de 5,3 % et la précision Best-of-N de 9,0 % après optimisation sur les modèles Qwen2.5-Instruct, surpassant les modèles de taille similaire Qwen-Coder, DeepSeek-Coder et Seed-Coder. Ils s'étendent naturellement à des tâches en aval telles que la mise à l'échelle au moment des tests et le codage agentique, obtenant une amélioration de 8,1 % par rapport au modèle de base. Pour le modèle long-CoT, notre ReasonFlux-Coder-4B surpasse systématiquement Qwen3-4B tout en atteignant une efficacité d'inférence de 64,8 % dans la génération de tests unitaires. Notamment, nous constatons également que notre modèle peut servir de modèle de récompense efficace pour l'apprentissage par renforcement sur les modèles de base. Projet : https://github.com/Gen-Verse/CURE

English

We propose CURE, a novel reinforcement learning framework with a dedicated reward design that co-evolves coding and unit test generation capabilities based on their interaction outcomes, without any ground-truth code as supervision. This approach enables flexible and scalable training and allows the unit tester to learn directly from the coder's mistakes. Our derived ReasonFlux-Coder-7B and 14B models improve code generation accuracy by 5.3% and Best-of-N accuracy by 9.0% after optimization on Qwen2.5-Instruct models, outperforming similarly sized Qwen-Coder, DeepSeek-Coder, and Seed-Coder. They naturally extend to downstream tasks such as test-time scaling and agentic coding-achieving a 8.1% improvement over the base model. For the long-CoT model, our ReasonFlux-Coder-4B consistently outperforms Qwen3-4B while achieving 64.8% inference efficiency in unit test generation. Notably, we also find that our model can serve as an effective reward model for reinforcement learning on base models. Project: https://github.com/Gen-Verse/CURE

Co-évolution d'un codeur LLM et d'un testeur unitaire via l'apprentissage par renforcement

Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

papers.abstract

Support