ChatPaper.aiChatPaper

DRIVE: 競争的コード生成における検証可能な報酬を用いた強化学習のためのデータキュレーションのベストプラクティス

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

November 9, 2025
著者: Speed Zhu, Jianwei Cai, Guang Chen, Lulu Wu, Saiyong Yang, Wiggin Zhou
cs.AI

要旨

最近の推論優先モデル(例:OpenAI o1、DeepSeek R1)の登場により、RLVR(強化学習による価値正則化)への関心が再燃しています。しかしながら、進歩は数学分野(例:AIME)が主流であり、競技プログラミングのコード生成は十分に探求されておらず、データ整備はRLアルゴリズム設計に比べて注目度が低い状況です。本研究では、RLVRデータセット(すなわちRLプロンプト)の構築方法を探求し、競技プログラミングコード生成で強力な性能を発揮する実用的な訓練技術を提案します。 当社のパイプラインは、強力なオープンソースモデルから蒸留した教師ありファインチューニング(SFT)から始まり、汎用データおよび推論集約型データで拡張されます。その後、実行可能なテストケース駆動の報酬を用いた2段階のRLプロセスを実施します。第一段階では、競技プログラミング問題の大規模で均一に分布したデータセットに対し、グループ相対ポリシー最適化(GRPO)を適用します(プロンプトあたり8回のロールアウト、応答生成ウィンドウは比較的短く設定:SFT時32k、本段階では24k)。これによりエントロピーを拡大し、反復や切り捨てを軽減します。第二段階では、Pre-GRPOを実行します:少数の高品質で難易度の高い問題セットに対し、大規模なロールアウト予算(プロンプトあたり64回)を用いて更新し、訓練を通じて最も困難なインスタンスを継続的に保持するハードフォーカスカリキュラムを採用します。 本手法をQwen2.5-32Bに実装し、データ漏洩を避けるためLeetCodeおよびCodeforcesの週次コンテストで評価しました。その結果、同規模のモデルの中でstate-of-the-art性能を達成し、DeepSeek v3.1やDoubao-1.5-Thinkingなどの主要システムに匹敵する性能を示しました。また、スケーリング傾向を検証し、内部大規模MoEモデルにおいて強力なRLスケーリングを確認しました。本研究は、競技プログラミングコード生成のためのRLVRにおける、データ整備、エントロピー拡大、カリキュラム設計に関する簡潔なベストプラクティスを集約するものです。
English
Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a resurgence of interest in RLVR. Nevertheless, advances are dominated by mathematics (e.g., AIME), with competitive-programming code generation underexplored and data curation receiving less attention than RL algorithm design. We investigate how to construct RLVR datasets (i.e., RL prompts) and present practical training techniques that yield strong performance on competitive-programming code generation. Our pipeline begins with supervised fine-tuning (SFT) distilled from strong open-source models, augmented with general-purpose and reasoning-intensive data. RL then follows a two-stage process with executable, testcase-driven rewards: first, training on a large, uniformly distributed set of competitive-programming problems using Group Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively short response-generation window (e.g., 32k during SFT and 24k in this stage) to expand entropy and mitigate repetition and truncation; second, we perform Pre-GRPO: updating on a small, high-quality set of challenging problems with a large rollout budget (64 rollouts per prompt) under a hard-focus curriculum that continuously retains the most difficult instances throughout training. We implement our method on Qwen2.5-32B and evaluate on LeetCode and Codeforces weekly contests to avoid data leakage. The resulting model achieves state-of-the-art performance among models of similar scale and is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking. We also examine scaling trends and observe strong RL scaling on an internal large-scale MoE model. Our study distills concise best practices for data curation, entropy expansion, and curriculum design in RLVR for competitive-programming code generation.
PDF505December 2, 2025