Co-Evolution von LLM-Codierer und Unit-Tester durch Reinforcement Learning

papers.abstract

Wir stellen CURE vor, ein neuartiges Reinforcement-Learning-Framework mit einem speziellen Reward-Design, das die Fähigkeiten zur Code- und Unit-Test-Generierung basierend auf ihren Interaktionsergebnissen ko-evolviert, ohne dabei auf Ground-Truth-Code als Supervision angewiesen zu sein. Dieser Ansatz ermöglicht ein flexibles und skalierbares Training und erlaubt es dem Unit-Tester, direkt aus den Fehlern des Coders zu lernen. Unsere abgeleiteten ReasonFlux-Coder-7B- und 14B-Modelle verbessern die Code-Generierungsgenauigkeit um 5,3 % und die Best-of-N-Genauigkeit um 9,0 % nach der Optimierung auf Qwen2.5-Instruct-Modellen und übertreffen damit ähnlich große Modelle wie Qwen-Coder, DeepSeek-Coder und Seed-Coder. Sie lassen sich natürlich auf nachgelagerte Aufgaben wie Test-Time-Scaling und agentenbasiertes Codieren erweitern – mit einer Verbesserung von 8,1 % gegenüber dem Basismodell. Beim Long-CoT-Modell übertrifft unser ReasonFlux-Coder-4B durchgehend Qwen3-4B und erreicht dabei eine Inferenzeffizienz von 64,8 % bei der Unit-Test-Generierung. Bemerkenswerterweise stellen wir auch fest, dass unser Modell als effektives Reward-Modell für Reinforcement-Learning auf Basismodellen dienen kann. Projekt: https://github.com/Gen-Verse/CURE

English

We propose CURE, a novel reinforcement learning framework with a dedicated reward design that co-evolves coding and unit test generation capabilities based on their interaction outcomes, without any ground-truth code as supervision. This approach enables flexible and scalable training and allows the unit tester to learn directly from the coder's mistakes. Our derived ReasonFlux-Coder-7B and 14B models improve code generation accuracy by 5.3% and Best-of-N accuracy by 9.0% after optimization on Qwen2.5-Instruct models, outperforming similarly sized Qwen-Coder, DeepSeek-Coder, and Seed-Coder. They naturally extend to downstream tasks such as test-time scaling and agentic coding-achieving a 8.1% improvement over the base model. For the long-CoT model, our ReasonFlux-Coder-4B consistently outperforms Qwen3-4B while achieving 64.8% inference efficiency in unit test generation. Notably, we also find that our model can serve as an effective reward model for reinforcement learning on base models. Project: https://github.com/Gen-Verse/CURE

Co-Evolution von LLM-Codierer und Unit-Tester durch Reinforcement Learning

Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

papers.abstract

Support