Co-Evolução de Codificador LLM e Testador de Unidades via Aprendizado por Reforço
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning
June 3, 2025
Autores: Yinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang
cs.AI
Resumo
Propomos o CURE, uma nova estrutura de aprendizagem por reforço com um design de recompensa dedicado que co-evolui as capacidades de geração de código e testes unitários com base nos resultados de sua interação, sem qualquer código verdadeiro como supervisão. Essa abordagem permite um treinamento flexível e escalável e possibilita que o testador de unidades aprenda diretamente com os erros do codificador. Nossos modelos derivados ReasonFlux-Coder-7B e 14B melhoram a precisão da geração de código em 5,3% e a precisão Best-of-N em 9,0% após a otimização nos modelos Qwen2.5-Instruct, superando os modelos Qwen-Coder, DeepSeek-Coder e Seed-Coder de tamanho similar. Eles se estendem naturalmente para tarefas subsequentes, como escalonamento em tempo de teste e codificação agentiva, alcançando uma melhoria de 8,1% em relação ao modelo base. Para o modelo long-CoT, nosso ReasonFlux-Coder-4B supera consistentemente o Qwen3-4B enquanto alcança 64,8% de eficiência de inferência na geração de testes unitários. Notavelmente, também descobrimos que nosso modelo pode servir como um modelo de recompensa eficaz para aprendizagem por reforço em modelos base. Projeto: https://github.com/Gen-Verse/CURE
English
We propose CURE, a novel reinforcement learning framework with a dedicated
reward design that co-evolves coding and unit test generation capabilities
based on their interaction outcomes, without any ground-truth code as
supervision. This approach enables flexible and scalable training and allows
the unit tester to learn directly from the coder's mistakes. Our derived
ReasonFlux-Coder-7B and 14B models improve code generation accuracy by 5.3% and
Best-of-N accuracy by 9.0% after optimization on Qwen2.5-Instruct models,
outperforming similarly sized Qwen-Coder, DeepSeek-Coder, and Seed-Coder. They
naturally extend to downstream tasks such as test-time scaling and agentic
coding-achieving a 8.1% improvement over the base model. For the long-CoT
model, our ReasonFlux-Coder-4B consistently outperforms Qwen3-4B while
achieving 64.8% inference efficiency in unit test generation. Notably, we also
find that our model can serve as an effective reward model for reinforcement
learning on base models. Project: https://github.com/Gen-Verse/CURE