Совместная эволюция кодировщика на основе LLM и модульного тестировщика с использованием обучения с подкреплением
Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning
June 3, 2025
Авторы: Yinjie Wang, Ling Yang, Ye Tian, Ke Shen, Mengdi Wang
cs.AI
Аннотация
Мы представляем CURE — новую структуру обучения с подкреплением, включающую специализированный дизайн вознаграждений, который совместно развивает способности генерации кода и модульных тестов на основе результатов их взаимодействия, без использования эталонного кода в качестве контроля. Этот подход обеспечивает гибкое и масштабируемое обучение, позволяя модульному тестеру обучаться непосредственно на ошибках генератора кода. Наши модели ReasonFlux-Coder-7B и 14B повышают точность генерации кода на 5,3% и точность Best-of-N на 9,0% после оптимизации на моделях Qwen2.5-Instruct, превосходя аналогичные по размеру модели Qwen-Coder, DeepSeek-Coder и Seed-Coder. Они естественным образом расширяются на задачи, такие как масштабирование на этапе тестирования и агентное кодирование, демонстрируя улучшение на 8,1% по сравнению с базовой моделью. Для модели long-CoT наш ReasonFlux-Coder-4B стабильно превосходит Qwen3-4B, достигая 64,8% эффективности вывода при генерации модульных тестов. Примечательно, что мы также обнаружили, что наша модель может эффективно использоваться в качестве модели вознаграждения для обучения с подкреплением на базовых моделях. Проект: https://github.com/Gen-Verse/CURE
English
We propose CURE, a novel reinforcement learning framework with a dedicated
reward design that co-evolves coding and unit test generation capabilities
based on their interaction outcomes, without any ground-truth code as
supervision. This approach enables flexible and scalable training and allows
the unit tester to learn directly from the coder's mistakes. Our derived
ReasonFlux-Coder-7B and 14B models improve code generation accuracy by 5.3% and
Best-of-N accuracy by 9.0% after optimization on Qwen2.5-Instruct models,
outperforming similarly sized Qwen-Coder, DeepSeek-Coder, and Seed-Coder. They
naturally extend to downstream tasks such as test-time scaling and agentic
coding-achieving a 8.1% improvement over the base model. For the long-CoT
model, our ReasonFlux-Coder-4B consistently outperforms Qwen3-4B while
achieving 64.8% inference efficiency in unit test generation. Notably, we also
find that our model can serve as an effective reward model for reinforcement
learning on base models. Project: https://github.com/Gen-Verse/CURE