DRIVE: Best Practice per la Cura dei Dati nell'Apprendimento per Rinforzo con Ricompensa Verificabile nella Generazione Competitiva di Codice
DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation
November 9, 2025
Autori: Speed Zhu, Jianwei Cai, Guang Chen, Lulu Wu, Saiyong Yang, Wiggin Zhou
cs.AI
Abstract
I recenti modelli reasoning-first (ad esempio, OpenAI o1, DeepSeek R1) hanno stimolato una rinascita dell'interesse per RLVR. Tuttavia, i progressi sono dominati dalla matematica (ad esempio, AIME), mentre la generazione di codice per la programmazione competitiva è rimasta poco esplorata e la cura dei dati ha ricevuto meno attenzione rispetto alla progettazione degli algoritmi RL. Investigiamo come costruire dataset per RLVR (cioè prompt per RL) e presentiamo tecniche di addestramento pratiche che producono prestazioni elevate nella generazione di codice per programmazione competitiva.
La nostra pipeline inizia con un fine-tuning supervisionato (SFT) distillato da forti modelli open-source, arricchito con dati per scopi generici e ad alta intensità di ragionamento. La RL segue poi un processo in due fasi con ricompense eseguibili basate su test case: prima, l'addestramento su un ampio set uniformemente distribuito di problemi di programmazione competitiva utilizzando Group Relative Policy Optimization (GRPO) con 8 rollout per prompt e una finestra di generazione delle risposte relativamente breve (ad esempio, 32k durante SFT e 24k in questa fase) per espandere l'entropia e mitigare ripetizioni e troncamenti; in secondo luogo, eseguiamo Pre-GRPO: aggiornamento su un piccolo set di alta qualità di problemi complessi con un ampio budget di rollout (64 rollout per prompt) sotto un curriculum a focus rigido che mantiene continuamente le istanze più difficili durante l'addestramento.
Implementiamo il nostro metodo su Qwen2.5-32B e valutiamo su contest settimanali di LeetCode e Codeforces per evitare data leakage. Il modello risultante raggiunge prestazioni all'avanguardia tra i modelli di scala simile ed è comparabile a sistemi leader come DeepSeek v3.1 e Doubao-1.5-Thinking. Esaminiamo anche le tendenze di scalabilità e osserviamo una forte scalabilità RL su un modello MoE interno su larga scala. Il nostro studio condensa le migliori pratiche concise per la cura dei dati, l'espansione dell'entropia e la progettazione del curriculum in RLVR per la generazione di codice per programmazione competitiva.
English
Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a
resurgence of interest in RLVR. Nevertheless, advances are dominated by
mathematics (e.g., AIME), with competitive-programming code generation
underexplored and data curation receiving less attention than RL algorithm
design. We investigate how to construct RLVR datasets (i.e., RL prompts) and
present practical training techniques that yield strong performance on
competitive-programming code generation. Our pipeline begins with supervised
fine-tuning (SFT) distilled from strong open-source models, augmented with
general-purpose and reasoning-intensive data. RL then follows a two-stage
process with executable, testcase-driven rewards: first, training on a large,
uniformly distributed set of competitive-programming problems using Group
Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively
short response-generation window (e.g., 32k during SFT and 24k in this stage)
to expand entropy and mitigate repetition and truncation; second, we perform
Pre-GRPO: updating on a small, high-quality set of challenging
problems with a large rollout budget (64 rollouts per prompt) under a
hard-focus curriculum that continuously retains the most difficult instances
throughout training. We implement our method on Qwen2.5-32B and evaluate on
LeetCode and Codeforces weekly contests to avoid data leakage. The resulting
model achieves state-of-the-art performance among models of similar scale and
is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking.
We also examine scaling trends and observe strong RL scaling on an internal
large-scale MoE model. Our study distills concise best practices for data
curation, entropy expansion, and curriculum design in RLVR for
competitive-programming code generation.