DRIVE: Melhores Práticas de Curadoria de Dados para Aprendizagem por Reforço com Recompensa Verificável na Geração Competitiva de Código
DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation
November 9, 2025
Autores: Speed Zhu, Jianwei Cai, Guang Chen, Lulu Wu, Saiyong Yang, Wiggin Zhou
cs.AI
Resumo
Os modelos recentes que priorizam o raciocínio (por exemplo, OpenAI o1, DeepSeek R1) estimularam um renovado interesse no RLVR (Reinforcement Learning from Verifiable Feedback). No entanto, os avanços são dominados pela matemática (por exemplo, AIME), com a geração de código para programação competitiva pouco explorada e a curadoria de dados recebendo menos atenção do que o projeto de algoritmos de RL. Investigamos como construir conjuntos de dados para RLVR (ou seja, *prompts* de RL) e apresentamos técnicas práticas de treinamento que proporcionam um forte desempenho na geração de código para programação competitiva.
Nosso *pipeline* começa com o ajuste fino supervisionado (SFT) destilado de modelos *open-source* robustos, aumentado com dados de uso geral e intensivos em raciocínio. O RL segue então um processo de dois estágios com recompensas acionáveis baseadas em casos de teste: primeiro, o treinamento em um grande conjunto de problemas de programação competitiva distribuídos uniformemente, usando Otimização de Política Relativa de Grupo (GRPO) com 8 *rollouts* por *prompt* e uma janela de geração de resposta relativamente curta (por exemplo, 32k durante o SFT e 24k nesta fase) para expandir a entropia e mitigar repetição e truncamento; segundo, realizamos o Pré-GRPO: atualização em um pequeno conjunto de alta qualidade de problemas desafiadores com um grande orçamento de *rollouts* (64 *rollouts* por *prompt*) sob um currículo de foco rígido que retém continuamente as instâncias mais difíceis durante todo o treinamento.
Implementamos nosso método no Qwen2.5-32B e avaliamos em competições semanais do LeetCode e Codeforces para evitar vazamento de dados. O modelo resultante atinge um desempenho de ponta entre modelos de escala similar e é comparável a sistemas líderes como DeepSeek v3.1 e Doubao-1.5-Thinking. Também examinamos tendências de escalonamento e observamos um forte escalonamento de RL em um modelo interno de grande escala MoE (Mixture of Experts). Nosso estudo destila práticas concisas e recomendadas para curadoria de dados, expansão de entropia e design de currículo em RLVR para geração de código em programação competitiva.
English
Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a
resurgence of interest in RLVR. Nevertheless, advances are dominated by
mathematics (e.g., AIME), with competitive-programming code generation
underexplored and data curation receiving less attention than RL algorithm
design. We investigate how to construct RLVR datasets (i.e., RL prompts) and
present practical training techniques that yield strong performance on
competitive-programming code generation. Our pipeline begins with supervised
fine-tuning (SFT) distilled from strong open-source models, augmented with
general-purpose and reasoning-intensive data. RL then follows a two-stage
process with executable, testcase-driven rewards: first, training on a large,
uniformly distributed set of competitive-programming problems using Group
Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively
short response-generation window (e.g., 32k during SFT and 24k in this stage)
to expand entropy and mitigate repetition and truncation; second, we perform
Pre-GRPO: updating on a small, high-quality set of challenging
problems with a large rollout budget (64 rollouts per prompt) under a
hard-focus curriculum that continuously retains the most difficult instances
throughout training. We implement our method on Qwen2.5-32B and evaluate on
LeetCode and Codeforces weekly contests to avoid data leakage. The resulting
model achieves state-of-the-art performance among models of similar scale and
is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking.
We also examine scaling trends and observe strong RL scaling on an internal
large-scale MoE model. Our study distills concise best practices for data
curation, entropy expansion, and curriculum design in RLVR for
competitive-programming code generation.