ChatPaper.aiChatPaper

DRIVE: Best Practices voor Data-curatie bij Reinforcement Learning met Verifieerbare Beloning in Competitieve Code-generatie

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

November 9, 2025
Auteurs: Speed Zhu, Jianwei Cai, Guang Chen, Lulu Wu, Saiyong Yang, Wiggin Zhou
cs.AI

Samenvatting

Recente reasoning-first modellen (zoals OpenAI o1, DeepSeek R1) hebben een hernieuwde interesse in RLVR (Reinforcement Learning from Verifier Feedback) aangewakkerd. Desalniettemin worden de vooruitgang gedomineerd door wiskunde (bijv. AIME), waarbij codegeneratie voor competitive programming onderbelicht blijft en datacuratie minder aandacht krijgt dan het ontwerp van RL-algoritmen. Wij onderzoeken hoe RLVR-datasets (d.w.z. RL-prompts) kunnen worden samengesteld en presenteren praktische trainingstechnieken die sterke prestaties opleveren voor codegeneratie bij competitive programming. Onze pijplijn begint met supervised fine-tuning (SFT) gedistilleerd uit sterke open-source modellen, aangevuld met algemene en reasoning-intensieve data. Vervolgens volgt RL een tweefasenproces met uitvoerbare, testgeval-gestuurde beloningen: eerst training op een grote, uniform verdeelde set competitive-programmingproblemen met Group Relative Policy Optimization (GRPO) met 8 rollouts per prompt en een relatief kort antwoordgeneratievenster (bijv. 32k tijdens SFT en 24k in deze fase) om de entropie te vergroten en herhaling en afkapping tegen te gaan; ten tweede voeren we Pre-GRPO uit: updaten op een kleine, hoogwaardige set uitdagende problemen met een groot rollout-budget (64 rollouts per prompt) volgens een hard-focus curriculum dat de moeilijkste instanties continu behoudt gedurende de training. Wij implementeren onze methode op Qwen2.5-32B en evalueren op LeetCode en Codeforces wekelijkse wedstrijden om datalekken te voorkomen. Het resulterende model bereikt state-of-the-art prestaties onder modellen van vergelijkbare schaal en is vergelijkbaar met toonaangevende systemen zoals DeepSeek v3.1 en Doubao-1.5-Thinking. Wij onderzoeken ook schaalbaarheidstrends en observeren sterke RL-schaling op een intern grootschalig MoE-model. Onze studie destilleert beknopte best practices voor datacuratie, entropie-uitbreiding en curriculumontwerp in RLVR voor codegeneratie bij competitive programming.
English
Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a resurgence of interest in RLVR. Nevertheless, advances are dominated by mathematics (e.g., AIME), with competitive-programming code generation underexplored and data curation receiving less attention than RL algorithm design. We investigate how to construct RLVR datasets (i.e., RL prompts) and present practical training techniques that yield strong performance on competitive-programming code generation. Our pipeline begins with supervised fine-tuning (SFT) distilled from strong open-source models, augmented with general-purpose and reasoning-intensive data. RL then follows a two-stage process with executable, testcase-driven rewards: first, training on a large, uniformly distributed set of competitive-programming problems using Group Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively short response-generation window (e.g., 32k during SFT and 24k in this stage) to expand entropy and mitigate repetition and truncation; second, we perform Pre-GRPO: updating on a small, high-quality set of challenging problems with a large rollout budget (64 rollouts per prompt) under a hard-focus curriculum that continuously retains the most difficult instances throughout training. We implement our method on Qwen2.5-32B and evaluate on LeetCode and Codeforces weekly contests to avoid data leakage. The resulting model achieves state-of-the-art performance among models of similar scale and is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking. We also examine scaling trends and observe strong RL scaling on an internal large-scale MoE model. Our study distills concise best practices for data curation, entropy expansion, and curriculum design in RLVR for competitive-programming code generation.
PDF505December 2, 2025