DRIVE: Best Practice per la Cura dei Dati nell'Apprendimento per Rinforzo con Ricompensa Verificabile nella Generazione Competitiva di Codice

Abstract

I recenti modelli reasoning-first (ad esempio, OpenAI o1, DeepSeek R1) hanno stimolato una rinascita dell'interesse per RLVR. Tuttavia, i progressi sono dominati dalla matematica (ad esempio, AIME), mentre la generazione di codice per la programmazione competitiva è rimasta poco esplorata e la cura dei dati ha ricevuto meno attenzione rispetto alla progettazione degli algoritmi RL. Investigiamo come costruire dataset per RLVR (cioè prompt per RL) e presentiamo tecniche di addestramento pratiche che producono prestazioni elevate nella generazione di codice per programmazione competitiva. La nostra pipeline inizia con un fine-tuning supervisionato (SFT) distillato da forti modelli open-source, arricchito con dati per scopi generici e ad alta intensità di ragionamento. La RL segue poi un processo in due fasi con ricompense eseguibili basate su test case: prima, l'addestramento su un ampio set uniformemente distribuito di problemi di programmazione competitiva utilizzando Group Relative Policy Optimization (GRPO) con 8 rollout per prompt e una finestra di generazione delle risposte relativamente breve (ad esempio, 32k durante SFT e 24k in questa fase) per espandere l'entropia e mitigare ripetizioni e troncamenti; in secondo luogo, eseguiamo Pre-GRPO: aggiornamento su un piccolo set di alta qualità di problemi complessi con un ampio budget di rollout (64 rollout per prompt) sotto un curriculum a focus rigido che mantiene continuamente le istanze più difficili durante l'addestramento. Implementiamo il nostro metodo su Qwen2.5-32B e valutiamo su contest settimanali di LeetCode e Codeforces per evitare data leakage. Il modello risultante raggiunge prestazioni all'avanguardia tra i modelli di scala simile ed è comparabile a sistemi leader come DeepSeek v3.1 e Doubao-1.5-Thinking. Esaminiamo anche le tendenze di scalabilità e osserviamo una forte scalabilità RL su un modello MoE interno su larga scala. Il nostro studio condensa le migliori pratiche concise per la cura dei dati, l'espansione dell'entropia e la progettazione del curriculum in RLVR per la generazione di codice per programmazione competitiva.

English

Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a resurgence of interest in RLVR. Nevertheless, advances are dominated by mathematics (e.g., AIME), with competitive-programming code generation underexplored and data curation receiving less attention than RL algorithm design. We investigate how to construct RLVR datasets (i.e., RL prompts) and present practical training techniques that yield strong performance on competitive-programming code generation. Our pipeline begins with supervised fine-tuning (SFT) distilled from strong open-source models, augmented with general-purpose and reasoning-intensive data. RL then follows a two-stage process with executable, testcase-driven rewards: first, training on a large, uniformly distributed set of competitive-programming problems using Group Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively short response-generation window (e.g., 32k during SFT and 24k in this stage) to expand entropy and mitigate repetition and truncation; second, we perform Pre-GRPO: updating on a small, high-quality set of challenging problems with a large rollout budget (64 rollouts per prompt) under a hard-focus curriculum that continuously retains the most difficult instances throughout training. We implement our method on Qwen2.5-32B and evaluate on LeetCode and Codeforces weekly contests to avoid data leakage. The resulting model achieves state-of-the-art performance among models of similar scale and is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking. We also examine scaling trends and observe strong RL scaling on an internal large-scale MoE model. Our study distills concise best practices for data curation, entropy expansion, and curriculum design in RLVR for competitive-programming code generation.

DRIVE: Best Practice per la Cura dei Dati nell'Apprendimento per Rinforzo con Ricompensa Verificabile nella Generazione Competitiva di Codice

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

Abstract

Support