DRIVE: Best Practices für die Datenkuratierung beim bestärkenden Lernen mit verifizierbarer Belohnung in der wettbewerbsorientierten Code-Generierung
DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation
November 9, 2025
papers.authors: Speed Zhu, Jianwei Cai, Guang Chen, Lulu Wu, Saiyong Yang, Wiggin Zhou
cs.AI
papers.abstract
Aktuelle Reasoning-First-Modelle (z.B. OpenAI o1, DeepSeek R1) haben ein wiederauflebendes Interesse an RLVR (Reinforcement Learning from Verifier Feedback) ausgelöst. Dennoch werden die Fortschritte von mathematischen Anwendungen (z.B. AIME) dominiert, während die Code-Generierung für Competitive Programming untererforscht bleibt und der Datenkuratierung weniger Aufmerksamkeit geschenkt wird als dem RL-Algorithmen-Design. Wir untersuchen, wie RLVR-Datensätze (d.h. RL-Prompts) konstruiert werden können, und stellen praktische Trainingstechniken vor, die eine hohe Leistung bei der Code-Generierung für Competitive Programming erzielen. Unsere Pipeline beginnt mit supervidiertem Fein-Tuning (SFT), das aus starken Open-Source-Modellen destilliert und mit allgemeinen sowie reasoning-intensiven Daten angereichert wird. Anschließend folgt RL einem zweistufigen Prozess mit ausführbaren, testfallgesteuerten Belohnungen: Zuerst wird das Training an einem großen, gleichmäßig verteilten Satz von Competitive-Programming-Problemen mit Group Relative Policy Optimization (GRPO) durchgeführt, mit 8 Rollouts pro Prompt und einem relativ kurzen Antwortgenerierungsfenster (z.B. 32k während SFT und 24k in dieser Stufe), um die Entropie zu erhöhen und Wiederholungen sowie Kürzungen zu vermeiden. Zweitens führen wir Pre-GRPO durch: Updates an einem kleinen, hochwertigen Satz anspruchsvoller Probleme mit einem großen Rollout-Budget (64 Rollouts pro Prompt) unter einem Hard-Focus-Curriculum, das die schwierigsten Instanzen während des gesamten Trainings kontinuierlich beibehält. Wir implementieren unsere Methode auf Qwen2.5-32B und evaluieren auf LeetCode und Codeforces Weekly Contests, um Datenlecks zu vermeiden. Das resultierende Modell erzielt state-of-the-art Leistung unter Modellen ähnlicher Größe und ist vergleichbar mit führenden Systemen wie DeepSeek v3.1 und Doubao-1.5-Thinking. Wir untersuchen auch Skalierungstrends und beobachten eine starke RL-Skalierung an einem internen großskaligen MoE-Modell (Mixture of Experts). Unsere Studie destilliert prägnante Best Practices für Datenkuratierung, Entropieerweiterung und Curriculum-Design in RLVR für die Code-Generierung im Competitive Programming.
English
Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a
resurgence of interest in RLVR. Nevertheless, advances are dominated by
mathematics (e.g., AIME), with competitive-programming code generation
underexplored and data curation receiving less attention than RL algorithm
design. We investigate how to construct RLVR datasets (i.e., RL prompts) and
present practical training techniques that yield strong performance on
competitive-programming code generation. Our pipeline begins with supervised
fine-tuning (SFT) distilled from strong open-source models, augmented with
general-purpose and reasoning-intensive data. RL then follows a two-stage
process with executable, testcase-driven rewards: first, training on a large,
uniformly distributed set of competitive-programming problems using Group
Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively
short response-generation window (e.g., 32k during SFT and 24k in this stage)
to expand entropy and mitigate repetition and truncation; second, we perform
Pre-GRPO: updating on a small, high-quality set of challenging
problems with a large rollout budget (64 rollouts per prompt) under a
hard-focus curriculum that continuously retains the most difficult instances
throughout training. We implement our method on Qwen2.5-32B and evaluate on
LeetCode and Codeforces weekly contests to avoid data leakage. The resulting
model achieves state-of-the-art performance among models of similar scale and
is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking.
We also examine scaling trends and observe strong RL scaling on an internal
large-scale MoE model. Our study distills concise best practices for data
curation, entropy expansion, and curriculum design in RLVR for
competitive-programming code generation.