Co-evoluerende LLM-coder en unit-tester via reinforcement learning

Samenvatting

Wij stellen CURE voor, een nieuw reinforcement learning-raamwerk met een toegewijd beloningsontwerp dat het vermogen tot coderen en het genereren van unittests co-evolueert op basis van hun interactieresultaten, zonder enige grondwaarheidscode als supervisie. Deze aanpak maakt flexibele en schaalbare training mogelijk en stelt de unittestgenerator in staat rechtstreeks te leren van de fouten van de coder. Onze afgeleide ReasonFlux-Coder-7B en 14B-modellen verbeteren de nauwkeurigheid van codegeneratie met 5,3% en de Best-of-N-nauwkeurigheid met 9,0% na optimalisatie op Qwen2.5-Instruct-modellen, en overtreffen daarmee vergelijkbaar grote Qwen-Coder-, DeepSeek-Coder- en Seed-Coder-modellen. Ze breiden zich natuurlijk uit naar downstream taken zoals test-time scaling en agentic coding, wat een verbetering van 8,1% oplevert ten opzichte van het basismodel. Voor het long-CoT-model presteert onze ReasonFlux-Coder-4B consistent beter dan Qwen3-4B, terwijl het een inferentie-efficiëntie van 64,8% bereikt in het genereren van unittests. Opmerkelijk is dat we ook ontdekken dat ons model effectief kan dienen als een beloningsmodel voor reinforcement learning op basismodellen. Project: https://github.com/Gen-Verse/CURE

English

We propose CURE, a novel reinforcement learning framework with a dedicated reward design that co-evolves coding and unit test generation capabilities based on their interaction outcomes, without any ground-truth code as supervision. This approach enables flexible and scalable training and allows the unit tester to learn directly from the coder's mistakes. Our derived ReasonFlux-Coder-7B and 14B models improve code generation accuracy by 5.3% and Best-of-N accuracy by 9.0% after optimization on Qwen2.5-Instruct models, outperforming similarly sized Qwen-Coder, DeepSeek-Coder, and Seed-Coder. They naturally extend to downstream tasks such as test-time scaling and agentic coding-achieving a 8.1% improvement over the base model. For the long-CoT model, our ReasonFlux-Coder-4B consistently outperforms Qwen3-4B while achieving 64.8% inference efficiency in unit test generation. Notably, we also find that our model can serve as an effective reward model for reinforcement learning on base models. Project: https://github.com/Gen-Verse/CURE

Co-evoluerende LLM-coder en unit-tester via reinforcement learning

Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

Samenvatting

Support