Co-evoluerende LLM-coder en unit-tester via reinforcement learning
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning
June 3, 2025
Auteurs: Yinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang
cs.AI
Samenvatting
Wij stellen CURE voor, een nieuw reinforcement learning-raamwerk met een toegewijd beloningsontwerp dat het vermogen tot coderen en het genereren van unittests co-evolueert op basis van hun interactieresultaten, zonder enige grondwaarheidscode als supervisie. Deze aanpak maakt flexibele en schaalbare training mogelijk en stelt de unittestgenerator in staat rechtstreeks te leren van de fouten van de coder. Onze afgeleide ReasonFlux-Coder-7B en 14B-modellen verbeteren de nauwkeurigheid van codegeneratie met 5,3% en de Best-of-N-nauwkeurigheid met 9,0% na optimalisatie op Qwen2.5-Instruct-modellen, en overtreffen daarmee vergelijkbaar grote Qwen-Coder-, DeepSeek-Coder- en Seed-Coder-modellen. Ze breiden zich natuurlijk uit naar downstream taken zoals test-time scaling en agentic coding, wat een verbetering van 8,1% oplevert ten opzichte van het basismodel. Voor het long-CoT-model presteert onze ReasonFlux-Coder-4B consistent beter dan Qwen3-4B, terwijl het een inferentie-efficiëntie van 64,8% bereikt in het genereren van unittests. Opmerkelijk is dat we ook ontdekken dat ons model effectief kan dienen als een beloningsmodel voor reinforcement learning op basismodellen. Project: https://github.com/Gen-Verse/CURE
English
We propose CURE, a novel reinforcement learning framework with a dedicated
reward design that co-evolves coding and unit test generation capabilities
based on their interaction outcomes, without any ground-truth code as
supervision. This approach enables flexible and scalable training and allows
the unit tester to learn directly from the coder's mistakes. Our derived
ReasonFlux-Coder-7B and 14B models improve code generation accuracy by 5.3% and
Best-of-N accuracy by 9.0% after optimization on Qwen2.5-Instruct models,
outperforming similarly sized Qwen-Coder, DeepSeek-Coder, and Seed-Coder. They
naturally extend to downstream tasks such as test-time scaling and agentic
coding-achieving a 8.1% improvement over the base model. For the long-CoT
model, our ReasonFlux-Coder-4B consistently outperforms Qwen3-4B while
achieving 64.8% inference efficiency in unit test generation. Notably, we also
find that our model can serve as an effective reward model for reinforcement
learning on base models. Project: https://github.com/Gen-Verse/CURE