Совместная эволюция кодировщика на основе LLM и модульного тестировщика с использованием обучения с подкреплением

Аннотация

Мы представляем CURE — новую структуру обучения с подкреплением, включающую специализированный дизайн вознаграждений, который совместно развивает способности генерации кода и модульных тестов на основе результатов их взаимодействия, без использования эталонного кода в качестве контроля. Этот подход обеспечивает гибкое и масштабируемое обучение, позволяя модульному тестеру обучаться непосредственно на ошибках генератора кода. Наши модели ReasonFlux-Coder-7B и 14B повышают точность генерации кода на 5,3% и точность Best-of-N на 9,0% после оптимизации на моделях Qwen2.5-Instruct, превосходя аналогичные по размеру модели Qwen-Coder, DeepSeek-Coder и Seed-Coder. Они естественным образом расширяются на задачи, такие как масштабирование на этапе тестирования и агентное кодирование, демонстрируя улучшение на 8,1% по сравнению с базовой моделью. Для модели long-CoT наш ReasonFlux-Coder-4B стабильно превосходит Qwen3-4B, достигая 64,8% эффективности вывода при генерации модульных тестов. Примечательно, что мы также обнаружили, что наша модель может эффективно использоваться в качестве модели вознаграждения для обучения с подкреплением на базовых моделях. Проект: https://github.com/Gen-Verse/CURE

English

We propose CURE, a novel reinforcement learning framework with a dedicated reward design that co-evolves coding and unit test generation capabilities based on their interaction outcomes, without any ground-truth code as supervision. This approach enables flexible and scalable training and allows the unit tester to learn directly from the coder's mistakes. Our derived ReasonFlux-Coder-7B and 14B models improve code generation accuracy by 5.3% and Best-of-N accuracy by 9.0% after optimization on Qwen2.5-Instruct models, outperforming similarly sized Qwen-Coder, DeepSeek-Coder, and Seed-Coder. They naturally extend to downstream tasks such as test-time scaling and agentic coding-achieving a 8.1% improvement over the base model. For the long-CoT model, our ReasonFlux-Coder-4B consistently outperforms Qwen3-4B while achieving 64.8% inference efficiency in unit test generation. Notably, we also find that our model can serve as an effective reward model for reinforcement learning on base models. Project: https://github.com/Gen-Verse/CURE

Совместная эволюция кодировщика на основе LLM и модульного тестировщика с использованием обучения с подкреплением

Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning

Аннотация

Support