DRIVE : Bonnes pratiques de curation des données pour l'apprentissage par renforcement avec récompense vérifiable dans la génération compétitive de code

papers.abstract

Les modèles récents privilégiant le raisonnement (par exemple, OpenAI o1, DeepSeek R1) ont suscité un regain d'intérêt pour l'Apprentissage par Renforcement avec Rétroaction Verbale (RLVR). Néanmoins, les progrès sont dominés par les mathématiques (par exemple, AIME), la génération de code pour la programmation compétitive étant sous-explorée et la curation des données recevant moins d'attention que la conception des algorithmes de RL. Nous étudions comment construire des ensembles de données pour le RLVR (c'est-à-dire les prompts de RL) et présentons des techniques d'entraînement pratiques qui offrent de fortes performances en génération de code pour la programmation compétitive. Notre pipeline commence par un réglage fin supervisé (SFT) distillé à partir de modèles open-source performants, augmenté par des données généralistes et exigeantes en raisonnement. Le RL suit ensuite un processus en deux étapes avec des récompenses exécutables basées sur des cas de test : premièrement, un entraînement sur un large ensemble de problèmes de programmation compétitive uniformément distribués en utilisant l'Optimisation de Politique Relative par Groupe (GRPO) avec 8 déploiements par prompt et une fenêtre de génération de réponse relativement courte (par exemple, 32k pendant le SFT et 24k à cette étape) pour augmenter l'entropie et atténuer la répétition et la troncation ; deuxièmement, nous effectuons un Pré-GRPO : une mise à jour sur un petit ensemble de haute qualité de problèmes difficiles avec un budget de déploiement important (64 déploiements par prompt) selon un curriculum à focalisation stricte qui conserve continuellement les instances les plus difficiles tout au long de l'entraînement. Nous implémentons notre méthode sur Qwen2.5-32B et évaluons sur les concours hebdomadaires LeetCode et Codeforces pour éviter les fuites de données. Le modèle résultant atteint des performances de pointe parmi les modèles d'échelle similaire et est comparable aux systèmes leaders tels que DeepSeek v3.1 et Doubao-1.5-Thinking. Nous examinons également les tendances de mise à l'échelle et observons un fort potentiel de scaling du RL sur un grand modèle MoE interne. Notre étude dégage des meilleures pratiques concises pour la curation des données, l'expansion de l'entropie et la conception de curriculum dans le RLVR pour la génération de code en programmation compétitive.

English

Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a resurgence of interest in RLVR. Nevertheless, advances are dominated by mathematics (e.g., AIME), with competitive-programming code generation underexplored and data curation receiving less attention than RL algorithm design. We investigate how to construct RLVR datasets (i.e., RL prompts) and present practical training techniques that yield strong performance on competitive-programming code generation. Our pipeline begins with supervised fine-tuning (SFT) distilled from strong open-source models, augmented with general-purpose and reasoning-intensive data. RL then follows a two-stage process with executable, testcase-driven rewards: first, training on a large, uniformly distributed set of competitive-programming problems using Group Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively short response-generation window (e.g., 32k during SFT and 24k in this stage) to expand entropy and mitigate repetition and truncation; second, we perform Pre-GRPO: updating on a small, high-quality set of challenging problems with a large rollout budget (64 rollouts per prompt) under a hard-focus curriculum that continuously retains the most difficult instances throughout training. We implement our method on Qwen2.5-32B and evaluate on LeetCode and Codeforces weekly contests to avoid data leakage. The resulting model achieves state-of-the-art performance among models of similar scale and is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking. We also examine scaling trends and observe strong RL scaling on an internal large-scale MoE model. Our study distills concise best practices for data curation, entropy expansion, and curriculum design in RLVR for competitive-programming code generation.

DRIVE : Bonnes pratiques de curation des données pour l'apprentissage par renforcement avec récompense vérifiable dans la génération compétitive de code

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

papers.abstract

Support