DRIVE: 경쟁적 코드 생성에서 검증 가능한 보상을 활용한 강화 학습을 위한 데이터 큐레이션 모범 사례
DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation
November 9, 2025
저자: Speed Zhu, Jianwei Cai, Guang Chen, Lulu Wu, Saiyong Yang, Wiggin Zhou
cs.AI
초록
최근 추론 우선 모델(예: OpenAI o1, DeepSeek R1)의 등장으로 RLVR(Reinforcement Learning from Verifiable Feedback)에 대한 관심이 다시 높아지고 있습니다. 그러나 이러한 발전은 주로 수학 문제(예: AIME)에 집중되어 있으며, 경쟁 프로그래밍 코드 생성 분야는 상대적으로 덜 탐구되고 데이터 큐레이션은 RL 알고리즘 설계보다 적은 관심을 받았습니다. 본 연구는 RLVR 데이터셋(즉, RL 프롬프트)을 구축하는 방법과 경쟁 프로그래밍 코드 생성에서 강력한 성능을 보이는 실용적인 훈련 기법을 제시합니다. 우리의 파이프라인은 강력한 오픈소스 모델에서 추출한 지도 미세 조정(SFT)으로 시작되며, 일반 목적 및 고강도 추론 데이터로 보강됩니다. 이후 RL은 실행 가능한 테스트케이스 기반 보상을 사용하는 두 단계 과정을 따릅니다. 첫 번째 단계에서는 광범위하고 균일하게 분포된 경쟁 프로그래밍 문제 집합에 대해 그룹 상대 정책 최적화(GRPO)를 적용하며, 프롬프트당 8개의 롤아웃과 상대적으로 짧은 응답 생성 창(예: SFT 동안 32k, 이 단계에서 24k)을 사용하여 엔트로피를 확장하고 반복 및 잘림 현상을 완화합니다. 두 번째 단계에서는 Pre-GRPO를 수행합니다. 이는 적은 수의 고품질 도전적 문제 집합에 대해 많은 롤아웃 예산(프롬프트당 64 롤아웃)을 사용하고, 훈련 전체에 걸쳐 가장 어려운 인스턴스를 지속적으로 유지하는 하드 포커스 커리큘럼 하에서 모델을 업데이트하는 방식입니다. 우리는 이 방법을 Qwen2.5-32B에 구현하고 데이터 누출을 피하기 위해 LeetCode 및 Codeforces 주간 대회에서 평가했습니다. 그 결과, 동일 규모 모델 중 최고 수준의 성능을 달성했으며 DeepSeek v3.1 및 Doubao-1.5-Thinking과 같은 선도적인 시스템에 필적하는 성능을 보였습니다. 또한 규모 확장 추세를 분석했으며 내부 대규모 MoE 모델에서 강력한 RL 규모 확장 효과를 관찰했습니다. 본 연구는 경쟁 프로그래밍 코드 생성을 위한 RLVR의 데이터 큐레이션, 엔트로피 확장, 커리큘럼 설계에 대한 간결한 모범 사례를 정리합니다.
English
Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a
resurgence of interest in RLVR. Nevertheless, advances are dominated by
mathematics (e.g., AIME), with competitive-programming code generation
underexplored and data curation receiving less attention than RL algorithm
design. We investigate how to construct RLVR datasets (i.e., RL prompts) and
present practical training techniques that yield strong performance on
competitive-programming code generation. Our pipeline begins with supervised
fine-tuning (SFT) distilled from strong open-source models, augmented with
general-purpose and reasoning-intensive data. RL then follows a two-stage
process with executable, testcase-driven rewards: first, training on a large,
uniformly distributed set of competitive-programming problems using Group
Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively
short response-generation window (e.g., 32k during SFT and 24k in this stage)
to expand entropy and mitigate repetition and truncation; second, we perform
Pre-GRPO: updating on a small, high-quality set of challenging
problems with a large rollout budget (64 rollouts per prompt) under a
hard-focus curriculum that continuously retains the most difficult instances
throughout training. We implement our method on Qwen2.5-32B and evaluate on
LeetCode and Codeforces weekly contests to avoid data leakage. The resulting
model achieves state-of-the-art performance among models of similar scale and
is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking.
We also examine scaling trends and observe strong RL scaling on an internal
large-scale MoE model. Our study distills concise best practices for data
curation, entropy expansion, and curriculum design in RLVR for
competitive-programming code generation.