Co-Evolución de Codificador LLM y Probador de Unidades mediante Aprendizaje por Refuerzo
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning
June 3, 2025
Autores: Yinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang
cs.AI
Resumen
Proponemos CURE, un novedoso marco de aprendizaje por refuerzo con un diseño de recompensas dedicado que co-evoluciona las capacidades de generación de código y pruebas unitarias basándose en los resultados de su interacción, sin necesidad de código de referencia como supervisión. Este enfoque permite un entrenamiento flexible y escalable, y posibilita que el evaluador de pruebas unitarias aprenda directamente de los errores del generador de código. Nuestros modelos derivados ReasonFlux-Coder-7B y 14B mejoran la precisión en la generación de código en un 5.3% y la precisión Best-of-N en un 9.0% tras la optimización en los modelos Qwen2.5-Instruct, superando a modelos de tamaño similar como Qwen-Coder, DeepSeek-Coder y Seed-Coder. Estos modelos se extienden naturalmente a tareas posteriores, como el escalado en tiempo de prueba y la codificación agentiva, logrando una mejora del 8.1% sobre el modelo base. Para el modelo long-CoT, nuestro ReasonFlux-Coder-4B supera consistentemente a Qwen3-4B mientras alcanza un 64.8% de eficiencia en inferencia para la generación de pruebas unitarias. Cabe destacar que también encontramos que nuestro modelo puede servir como un modelo de recompensa efectivo para el aprendizaje por refuerzo en modelos base. Proyecto: https://github.com/Gen-Verse/CURE
English
We propose CURE, a novel reinforcement learning framework with a dedicated
reward design that co-evolves coding and unit test generation capabilities
based on their interaction outcomes, without any ground-truth code as
supervision. This approach enables flexible and scalable training and allows
the unit tester to learn directly from the coder's mistakes. Our derived
ReasonFlux-Coder-7B and 14B models improve code generation accuracy by 5.3% and
Best-of-N accuracy by 9.0% after optimization on Qwen2.5-Instruct models,
outperforming similarly sized Qwen-Coder, DeepSeek-Coder, and Seed-Coder. They
naturally extend to downstream tasks such as test-time scaling and agentic
coding-achieving a 8.1% improvement over the base model. For the long-CoT
model, our ReasonFlux-Coder-4B consistently outperforms Qwen3-4B while
achieving 64.8% inference efficiency in unit test generation. Notably, we also
find that our model can serve as an effective reward model for reinforcement
learning on base models. Project: https://github.com/Gen-Verse/CURE