DRIVE : Bonnes pratiques de curation des données pour l'apprentissage par renforcement avec récompense vérifiable dans la génération compétitive de code
DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation
November 9, 2025
papers.authors: Speed Zhu, Jianwei Cai, Guang Chen, Lulu Wu, Saiyong Yang, Wiggin Zhou
cs.AI
papers.abstract
Les modèles récents privilégiant le raisonnement (par exemple, OpenAI o1, DeepSeek R1) ont suscité un regain d'intérêt pour l'Apprentissage par Renforcement avec Rétroaction Verbale (RLVR). Néanmoins, les progrès sont dominés par les mathématiques (par exemple, AIME), la génération de code pour la programmation compétitive étant sous-explorée et la curation des données recevant moins d'attention que la conception des algorithmes de RL. Nous étudions comment construire des ensembles de données pour le RLVR (c'est-à-dire les prompts de RL) et présentons des techniques d'entraînement pratiques qui offrent de fortes performances en génération de code pour la programmation compétitive. Notre pipeline commence par un réglage fin supervisé (SFT) distillé à partir de modèles open-source performants, augmenté par des données généralistes et exigeantes en raisonnement. Le RL suit ensuite un processus en deux étapes avec des récompenses exécutables basées sur des cas de test : premièrement, un entraînement sur un large ensemble de problèmes de programmation compétitive uniformément distribués en utilisant l'Optimisation de Politique Relative par Groupe (GRPO) avec 8 déploiements par prompt et une fenêtre de génération de réponse relativement courte (par exemple, 32k pendant le SFT et 24k à cette étape) pour augmenter l'entropie et atténuer la répétition et la troncation ; deuxièmement, nous effectuons un Pré-GRPO : une mise à jour sur un petit ensemble de haute qualité de problèmes difficiles avec un budget de déploiement important (64 déploiements par prompt) selon un curriculum à focalisation stricte qui conserve continuellement les instances les plus difficiles tout au long de l'entraînement. Nous implémentons notre méthode sur Qwen2.5-32B et évaluons sur les concours hebdomadaires LeetCode et Codeforces pour éviter les fuites de données. Le modèle résultant atteint des performances de pointe parmi les modèles d'échelle similaire et est comparable aux systèmes leaders tels que DeepSeek v3.1 et Doubao-1.5-Thinking. Nous examinons également les tendances de mise à l'échelle et observons un fort potentiel de scaling du RL sur un grand modèle MoE interne. Notre étude dégage des meilleures pratiques concises pour la curation des données, l'expansion de l'entropie et la conception de curriculum dans le RLVR pour la génération de code en programmation compétitive.
English
Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a
resurgence of interest in RLVR. Nevertheless, advances are dominated by
mathematics (e.g., AIME), with competitive-programming code generation
underexplored and data curation receiving less attention than RL algorithm
design. We investigate how to construct RLVR datasets (i.e., RL prompts) and
present practical training techniques that yield strong performance on
competitive-programming code generation. Our pipeline begins with supervised
fine-tuning (SFT) distilled from strong open-source models, augmented with
general-purpose and reasoning-intensive data. RL then follows a two-stage
process with executable, testcase-driven rewards: first, training on a large,
uniformly distributed set of competitive-programming problems using Group
Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively
short response-generation window (e.g., 32k during SFT and 24k in this stage)
to expand entropy and mitigate repetition and truncation; second, we perform
Pre-GRPO: updating on a small, high-quality set of challenging
problems with a large rollout budget (64 rollouts per prompt) under a
hard-focus curriculum that continuously retains the most difficult instances
throughout training. We implement our method on Qwen2.5-32B and evaluate on
LeetCode and Codeforces weekly contests to avoid data leakage. The resulting
model achieves state-of-the-art performance among models of similar scale and
is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking.
We also examine scaling trends and observe strong RL scaling on an internal
large-scale MoE model. Our study distills concise best practices for data
curation, entropy expansion, and curriculum design in RLVR for
competitive-programming code generation.