ChatPaper.aiChatPaper

DRIVE: Mejores Prácticas de Curación de Datos para el Aprendizaje por Refuerzo con Recompensa Verificable en la Generación Competitiva de Código

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

November 9, 2025
Autores: Speed Zhu, Jianwei Cai, Guang Chen, Lulu Wu, Saiyong Yang, Wiggin Zhou
cs.AI

Resumen

Los modelos recientes que priorizan el razonamiento (por ejemplo, OpenAI o1, DeepSeek R1) han impulsado un resurgimiento del interés en el Aprendizaje por Refuerzo a partir de Retroalimentación Verificable (RLVR). Sin embargo, los avances están dominados por las matemáticas (por ejemplo, AIME), mientras que la generación de código para programación competitiva ha sido menos explorada y la curación de datos ha recibido menos atención que el diseño de algoritmos de RL. Investigamos cómo construir conjuntos de datos para RLVR (es decir, *prompts* de RL) y presentamos técnicas prácticas de entrenamiento que ofrecen un alto rendimiento en la generación de código para programación competitiva. Nuestro *pipeline* comienza con un ajuste fino supervisado (SFT) destilado a partir de modelos *open-source* potentes, aumentado con datos de propósito general y de razonamiento intensivo. Luego, el RL sigue un proceso de dos etapas con recompensas ejecutables basadas en casos de prueba: primero, el entrenamiento en un conjunto grande y uniformemente distribuido de problemas de programación competitiva utilizando la Optimización de Políticas Relativas por Grupos (GRPO) con 8 *rollouts* por *prompt* y una ventana de generación de respuestas relativamente corta (por ejemplo, 32k durante el SFT y 24k en esta etapa) para expandir la entropía y mitigar la repetición y el truncamiento; segundo, realizamos Pre-GRPO: actualizamos sobre un conjunto pequeño y de alta calidad de problemas desafiantes con un presupuesto grande de *rollouts* (64 *rollouts* por *prompt*) bajo un currículo de enfoque estricto que retiene continuamente las instancias más difíciles durante todo el entrenamiento. Implementamos nuestro método en Qwen2.5-32B y evaluamos en concursos semanales de LeetCode y Codeforces para evitar la filtración de datos. El modelo resultante logra un rendimiento de vanguardia entre modelos de escala similar y es comparable a sistemas líderes como DeepSeek v3.1 y Doubao-1.5-Thinking. También examinamos las tendencias de escalado y observamos un fuerte escalado del RL en un modelo interno de gran escala MoE. Nuestro estudio destila mejores prácticas concisas para la curación de datos, la expansión de la entropía y el diseño curricular en RLVR para la generación de código de programación competitiva.
English
Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a resurgence of interest in RLVR. Nevertheless, advances are dominated by mathematics (e.g., AIME), with competitive-programming code generation underexplored and data curation receiving less attention than RL algorithm design. We investigate how to construct RLVR datasets (i.e., RL prompts) and present practical training techniques that yield strong performance on competitive-programming code generation. Our pipeline begins with supervised fine-tuning (SFT) distilled from strong open-source models, augmented with general-purpose and reasoning-intensive data. RL then follows a two-stage process with executable, testcase-driven rewards: first, training on a large, uniformly distributed set of competitive-programming problems using Group Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively short response-generation window (e.g., 32k during SFT and 24k in this stage) to expand entropy and mitigate repetition and truncation; second, we perform Pre-GRPO: updating on a small, high-quality set of challenging problems with a large rollout budget (64 rollouts per prompt) under a hard-focus curriculum that continuously retains the most difficult instances throughout training. We implement our method on Qwen2.5-32B and evaluate on LeetCode and Codeforces weekly contests to avoid data leakage. The resulting model achieves state-of-the-art performance among models of similar scale and is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking. We also examine scaling trends and observe strong RL scaling on an internal large-scale MoE model. Our study distills concise best practices for data curation, entropy expansion, and curriculum design in RLVR for competitive-programming code generation.
PDF505December 2, 2025