DRIVE: Лучшие практики курирования данных для обучения с подкреплением с верифицируемой функцией вознаграждения в соревновательной генерации кода
DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation
November 9, 2025
Авторы: Speed Zhu, Jianwei Cai, Guang Chen, Lulu Wu, Saiyong Yang, Wiggin Zhou
cs.AI
Аннотация
Недавние модели с приоритетом рассуждений (например, OpenAI o1, DeepSeek R1) вызвали новый всплеск интереса к RLVR (Reinforcement Learning from Verifier Feedback). Тем не менее, прогресс в этой области в значительной степени определяется достижениями в математике (например, AIME), тогда как генерация кода для соревновательного программирования исследована недостаточно, а курированию данных уделяется меньше внимания, чем проектированию RL-алгоритмов. Мы исследуем, как создавать наборы данных для RLVR (т.е. RL-промпты), и представляем практические методы обучения, которые обеспечивают высокую производительность в задаче генерации кода для соревновательного программирования. Наш конвейер начинается с контролируемого тонкого настройки (SFT), дистиллированного из сильных открытых моделей, дополненного данными общего назначения и данными, требующими интенсивных рассуждений. Затем RL следует двухэтапному процессу с исполняемыми вознаграждениями на основе тест-кейсов: сначала обучение на большом, равномерно распределенном наборе задач по соревновательному программированию с использованием Group Relative Policy Optimization (GRPO) с 8 прогонами на промпт и относительно коротким окном генерации ответов (например, 32k токенов во время SFT и 24k на этом этапе) для расширения энтропии и снижения повторений и обрезания; на втором этапе мы выполняем Pre-GRPO: обновляем модель на небольшом, высококачественном наборе сложных задач с большим бюджетом прогонов (64 прогона на промпт) в рамках учебного плана с жестким фокусом, который постоянно сохраняет наиболее сложные примеры на протяжении всего обучения. Мы реализуем наш метод на Qwen2.5-32B и оцениваем его на еженедельных соревнованиях LeetCode и Codeforces, чтобы избежать утечки данных. Полученная модель демонстрирует наилучшую производительность среди моделей сопоставимого масштаба и сравнима с ведущими системами, такими как DeepSeek v3.1 и Doubao-1.5-Thinking. Мы также исследуем тренды масштабирования и наблюдаем сильное масштабирование RL на внутренней крупномасштабной MoE-модели. Наше исследование формулирует краткие лучшие практики для курирования данных, расширения энтропии и проектирования учебного плана в RLVR для генерации кода в соревновательном программировании.
English
Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a
resurgence of interest in RLVR. Nevertheless, advances are dominated by
mathematics (e.g., AIME), with competitive-programming code generation
underexplored and data curation receiving less attention than RL algorithm
design. We investigate how to construct RLVR datasets (i.e., RL prompts) and
present practical training techniques that yield strong performance on
competitive-programming code generation. Our pipeline begins with supervised
fine-tuning (SFT) distilled from strong open-source models, augmented with
general-purpose and reasoning-intensive data. RL then follows a two-stage
process with executable, testcase-driven rewards: first, training on a large,
uniformly distributed set of competitive-programming problems using Group
Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively
short response-generation window (e.g., 32k during SFT and 24k in this stage)
to expand entropy and mitigate repetition and truncation; second, we perform
Pre-GRPO: updating on a small, high-quality set of challenging
problems with a large rollout budget (64 rollouts per prompt) under a
hard-focus curriculum that continuously retains the most difficult instances
throughout training. We implement our method on Qwen2.5-32B and evaluate on
LeetCode and Codeforces weekly contests to avoid data leakage. The resulting
model achieves state-of-the-art performance among models of similar scale and
is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking.
We also examine scaling trends and observe strong RL scaling on an internal
large-scale MoE model. Our study distills concise best practices for data
curation, entropy expansion, and curriculum design in RLVR for
competitive-programming code generation.