DRIVE: Melhores Práticas de Curadoria de Dados para Aprendizagem por Reforço com Recompensa Verificável na Geração Competitiva de Código

Resumo

Os modelos recentes que priorizam o raciocínio (por exemplo, OpenAI o1, DeepSeek R1) estimularam um renovado interesse no RLVR (Reinforcement Learning from Verifiable Feedback). No entanto, os avanços são dominados pela matemática (por exemplo, AIME), com a geração de código para programação competitiva pouco explorada e a curadoria de dados recebendo menos atenção do que o projeto de algoritmos de RL. Investigamos como construir conjuntos de dados para RLVR (ou seja, *prompts* de RL) e apresentamos técnicas práticas de treinamento que proporcionam um forte desempenho na geração de código para programação competitiva. Nosso *pipeline* começa com o ajuste fino supervisionado (SFT) destilado de modelos *open-source* robustos, aumentado com dados de uso geral e intensivos em raciocínio. O RL segue então um processo de dois estágios com recompensas acionáveis baseadas em casos de teste: primeiro, o treinamento em um grande conjunto de problemas de programação competitiva distribuídos uniformemente, usando Otimização de Política Relativa de Grupo (GRPO) com 8 *rollouts* por *prompt* e uma janela de geração de resposta relativamente curta (por exemplo, 32k durante o SFT e 24k nesta fase) para expandir a entropia e mitigar repetição e truncamento; segundo, realizamos o Pré-GRPO: atualização em um pequeno conjunto de alta qualidade de problemas desafiadores com um grande orçamento de *rollouts* (64 *rollouts* por *prompt*) sob um currículo de foco rígido que retém continuamente as instâncias mais difíceis durante todo o treinamento. Implementamos nosso método no Qwen2.5-32B e avaliamos em competições semanais do LeetCode e Codeforces para evitar vazamento de dados. O modelo resultante atinge um desempenho de ponta entre modelos de escala similar e é comparável a sistemas líderes como DeepSeek v3.1 e Doubao-1.5-Thinking. Também examinamos tendências de escalonamento e observamos um forte escalonamento de RL em um modelo interno de grande escala MoE (Mixture of Experts). Nosso estudo destila práticas concisas e recomendadas para curadoria de dados, expansão de entropia e design de currículo em RLVR para geração de código em programação competitiva.

English

Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a resurgence of interest in RLVR. Nevertheless, advances are dominated by mathematics (e.g., AIME), with competitive-programming code generation underexplored and data curation receiving less attention than RL algorithm design. We investigate how to construct RLVR datasets (i.e., RL prompts) and present practical training techniques that yield strong performance on competitive-programming code generation. Our pipeline begins with supervised fine-tuning (SFT) distilled from strong open-source models, augmented with general-purpose and reasoning-intensive data. RL then follows a two-stage process with executable, testcase-driven rewards: first, training on a large, uniformly distributed set of competitive-programming problems using Group Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively short response-generation window (e.g., 32k during SFT and 24k in this stage) to expand entropy and mitigate repetition and truncation; second, we perform Pre-GRPO: updating on a small, high-quality set of challenging problems with a large rollout budget (64 rollouts per prompt) under a hard-focus curriculum that continuously retains the most difficult instances throughout training. We implement our method on Qwen2.5-32B and evaluate on LeetCode and Codeforces weekly contests to avoid data leakage. The resulting model achieves state-of-the-art performance among models of similar scale and is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking. We also examine scaling trends and observe strong RL scaling on an internal large-scale MoE model. Our study distills concise best practices for data curation, entropy expansion, and curriculum design in RLVR for competitive-programming code generation.

DRIVE: Melhores Práticas de Curadoria de Dados para Aprendizagem por Reforço com Recompensa Verificável na Geração Competitiva de Código

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

Resumo

Support