Co-Evolução de Codificador LLM e Testador de Unidades via Aprendizado por Reforço

Resumo

Propomos o CURE, uma nova estrutura de aprendizagem por reforço com um design de recompensa dedicado que co-evolui as capacidades de geração de código e testes unitários com base nos resultados de sua interação, sem qualquer código verdadeiro como supervisão. Essa abordagem permite um treinamento flexível e escalável e possibilita que o testador de unidades aprenda diretamente com os erros do codificador. Nossos modelos derivados ReasonFlux-Coder-7B e 14B melhoram a precisão da geração de código em 5,3% e a precisão Best-of-N em 9,0% após a otimização nos modelos Qwen2.5-Instruct, superando os modelos Qwen-Coder, DeepSeek-Coder e Seed-Coder de tamanho similar. Eles se estendem naturalmente para tarefas subsequentes, como escalonamento em tempo de teste e codificação agentiva, alcançando uma melhoria de 8,1% em relação ao modelo base. Para o modelo long-CoT, nosso ReasonFlux-Coder-4B supera consistentemente o Qwen3-4B enquanto alcança 64,8% de eficiência de inferência na geração de testes unitários. Notavelmente, também descobrimos que nosso modelo pode servir como um modelo de recompensa eficaz para aprendizagem por reforço em modelos base. Projeto: https://github.com/Gen-Verse/CURE

English

We propose CURE, a novel reinforcement learning framework with a dedicated reward design that co-evolves coding and unit test generation capabilities based on their interaction outcomes, without any ground-truth code as supervision. This approach enables flexible and scalable training and allows the unit tester to learn directly from the coder's mistakes. Our derived ReasonFlux-Coder-7B and 14B models improve code generation accuracy by 5.3% and Best-of-N accuracy by 9.0% after optimization on Qwen2.5-Instruct models, outperforming similarly sized Qwen-Coder, DeepSeek-Coder, and Seed-Coder. They naturally extend to downstream tasks such as test-time scaling and agentic coding-achieving a 8.1% improvement over the base model. For the long-CoT model, our ReasonFlux-Coder-4B consistently outperforms Qwen3-4B while achieving 64.8% inference efficiency in unit test generation. Notably, we also find that our model can serve as an effective reward model for reinforcement learning on base models. Project: https://github.com/Gen-Verse/CURE

Co-Evolução de Codificador LLM e Testador de Unidades via Aprendizado por Reforço

Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

Resumo

Support