DRIVE: Лучшие практики курирования данных для обучения с подкреплением с верифицируемой функцией вознаграждения в соревновательной генерации кода

Аннотация

Недавние модели с приоритетом рассуждений (например, OpenAI o1, DeepSeek R1) вызвали новый всплеск интереса к RLVR (Reinforcement Learning from Verifier Feedback). Тем не менее, прогресс в этой области в значительной степени определяется достижениями в математике (например, AIME), тогда как генерация кода для соревновательного программирования исследована недостаточно, а курированию данных уделяется меньше внимания, чем проектированию RL-алгоритмов. Мы исследуем, как создавать наборы данных для RLVR (т.е. RL-промпты), и представляем практические методы обучения, которые обеспечивают высокую производительность в задаче генерации кода для соревновательного программирования. Наш конвейер начинается с контролируемого тонкого настройки (SFT), дистиллированного из сильных открытых моделей, дополненного данными общего назначения и данными, требующими интенсивных рассуждений. Затем RL следует двухэтапному процессу с исполняемыми вознаграждениями на основе тест-кейсов: сначала обучение на большом, равномерно распределенном наборе задач по соревновательному программированию с использованием Group Relative Policy Optimization (GRPO) с 8 прогонами на промпт и относительно коротким окном генерации ответов (например, 32k токенов во время SFT и 24k на этом этапе) для расширения энтропии и снижения повторений и обрезания; на втором этапе мы выполняем Pre-GRPO: обновляем модель на небольшом, высококачественном наборе сложных задач с большим бюджетом прогонов (64 прогона на промпт) в рамках учебного плана с жестким фокусом, который постоянно сохраняет наиболее сложные примеры на протяжении всего обучения. Мы реализуем наш метод на Qwen2.5-32B и оцениваем его на еженедельных соревнованиях LeetCode и Codeforces, чтобы избежать утечки данных. Полученная модель демонстрирует наилучшую производительность среди моделей сопоставимого масштаба и сравнима с ведущими системами, такими как DeepSeek v3.1 и Doubao-1.5-Thinking. Мы также исследуем тренды масштабирования и наблюдаем сильное масштабирование RL на внутренней крупномасштабной MoE-модели. Наше исследование формулирует краткие лучшие практики для курирования данных, расширения энтропии и проектирования учебного плана в RLVR для генерации кода в соревновательном программировании.

English

Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a resurgence of interest in RLVR. Nevertheless, advances are dominated by mathematics (e.g., AIME), with competitive-programming code generation underexplored and data curation receiving less attention than RL algorithm design. We investigate how to construct RLVR datasets (i.e., RL prompts) and present practical training techniques that yield strong performance on competitive-programming code generation. Our pipeline begins with supervised fine-tuning (SFT) distilled from strong open-source models, augmented with general-purpose and reasoning-intensive data. RL then follows a two-stage process with executable, testcase-driven rewards: first, training on a large, uniformly distributed set of competitive-programming problems using Group Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively short response-generation window (e.g., 32k during SFT and 24k in this stage) to expand entropy and mitigate repetition and truncation; second, we perform Pre-GRPO: updating on a small, high-quality set of challenging problems with a large rollout budget (64 rollouts per prompt) under a hard-focus curriculum that continuously retains the most difficult instances throughout training. We implement our method on Qwen2.5-32B and evaluate on LeetCode and Codeforces weekly contests to avoid data leakage. The resulting model achieves state-of-the-art performance among models of similar scale and is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking. We also examine scaling trends and observe strong RL scaling on an internal large-scale MoE model. Our study distills concise best practices for data curation, entropy expansion, and curriculum design in RLVR for competitive-programming code generation.

DRIVE: Лучшие практики курирования данных для обучения с подкреплением с верифицируемой функцией вознаграждения в соревновательной генерации кода

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

Аннотация

Support