Co-Evolución de Codificador LLM y Probador de Unidades mediante Aprendizaje por Refuerzo

Resumen

Proponemos CURE, un novedoso marco de aprendizaje por refuerzo con un diseño de recompensas dedicado que co-evoluciona las capacidades de generación de código y pruebas unitarias basándose en los resultados de su interacción, sin necesidad de código de referencia como supervisión. Este enfoque permite un entrenamiento flexible y escalable, y posibilita que el evaluador de pruebas unitarias aprenda directamente de los errores del generador de código. Nuestros modelos derivados ReasonFlux-Coder-7B y 14B mejoran la precisión en la generación de código en un 5.3% y la precisión Best-of-N en un 9.0% tras la optimización en los modelos Qwen2.5-Instruct, superando a modelos de tamaño similar como Qwen-Coder, DeepSeek-Coder y Seed-Coder. Estos modelos se extienden naturalmente a tareas posteriores, como el escalado en tiempo de prueba y la codificación agentiva, logrando una mejora del 8.1% sobre el modelo base. Para el modelo long-CoT, nuestro ReasonFlux-Coder-4B supera consistentemente a Qwen3-4B mientras alcanza un 64.8% de eficiencia en inferencia para la generación de pruebas unitarias. Cabe destacar que también encontramos que nuestro modelo puede servir como un modelo de recompensa efectivo para el aprendizaje por refuerzo en modelos base. Proyecto: https://github.com/Gen-Verse/CURE

English

We propose CURE, a novel reinforcement learning framework with a dedicated reward design that co-evolves coding and unit test generation capabilities based on their interaction outcomes, without any ground-truth code as supervision. This approach enables flexible and scalable training and allows the unit tester to learn directly from the coder's mistakes. Our derived ReasonFlux-Coder-7B and 14B models improve code generation accuracy by 5.3% and Best-of-N accuracy by 9.0% after optimization on Qwen2.5-Instruct models, outperforming similarly sized Qwen-Coder, DeepSeek-Coder, and Seed-Coder. They naturally extend to downstream tasks such as test-time scaling and agentic coding-achieving a 8.1% improvement over the base model. For the long-CoT model, our ReasonFlux-Coder-4B consistently outperforms Qwen3-4B while achieving 64.8% inference efficiency in unit test generation. Notably, we also find that our model can serve as an effective reward model for reinforcement learning on base models. Project: https://github.com/Gen-Verse/CURE

Co-Evolución de Codificador LLM y Probador de Unidades mediante Aprendizaje por Refuerzo

Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

Resumen

Support