ChatPaper.aiChatPaper

DRIVE: Best Practices für die Datenkuratierung beim bestärkenden Lernen mit verifizierbarer Belohnung in der wettbewerbsorientierten Code-Generierung

DRIVE: Data Curation Best Practices for Reinforcement Learning with Verifiable Reward in Competitive Code Generation

November 9, 2025
papers.authors: Speed Zhu, Jianwei Cai, Guang Chen, Lulu Wu, Saiyong Yang, Wiggin Zhou
cs.AI

papers.abstract

Aktuelle Reasoning-First-Modelle (z.B. OpenAI o1, DeepSeek R1) haben ein wiederauflebendes Interesse an RLVR (Reinforcement Learning from Verifier Feedback) ausgelöst. Dennoch werden die Fortschritte von mathematischen Anwendungen (z.B. AIME) dominiert, während die Code-Generierung für Competitive Programming untererforscht bleibt und der Datenkuratierung weniger Aufmerksamkeit geschenkt wird als dem RL-Algorithmen-Design. Wir untersuchen, wie RLVR-Datensätze (d.h. RL-Prompts) konstruiert werden können, und stellen praktische Trainingstechniken vor, die eine hohe Leistung bei der Code-Generierung für Competitive Programming erzielen. Unsere Pipeline beginnt mit supervidiertem Fein-Tuning (SFT), das aus starken Open-Source-Modellen destilliert und mit allgemeinen sowie reasoning-intensiven Daten angereichert wird. Anschließend folgt RL einem zweistufigen Prozess mit ausführbaren, testfallgesteuerten Belohnungen: Zuerst wird das Training an einem großen, gleichmäßig verteilten Satz von Competitive-Programming-Problemen mit Group Relative Policy Optimization (GRPO) durchgeführt, mit 8 Rollouts pro Prompt und einem relativ kurzen Antwortgenerierungsfenster (z.B. 32k während SFT und 24k in dieser Stufe), um die Entropie zu erhöhen und Wiederholungen sowie Kürzungen zu vermeiden. Zweitens führen wir Pre-GRPO durch: Updates an einem kleinen, hochwertigen Satz anspruchsvoller Probleme mit einem großen Rollout-Budget (64 Rollouts pro Prompt) unter einem Hard-Focus-Curriculum, das die schwierigsten Instanzen während des gesamten Trainings kontinuierlich beibehält. Wir implementieren unsere Methode auf Qwen2.5-32B und evaluieren auf LeetCode und Codeforces Weekly Contests, um Datenlecks zu vermeiden. Das resultierende Modell erzielt state-of-the-art Leistung unter Modellen ähnlicher Größe und ist vergleichbar mit führenden Systemen wie DeepSeek v3.1 und Doubao-1.5-Thinking. Wir untersuchen auch Skalierungstrends und beobachten eine starke RL-Skalierung an einem internen großskaligen MoE-Modell (Mixture of Experts). Unsere Studie destilliert prägnante Best Practices für Datenkuratierung, Entropieerweiterung und Curriculum-Design in RLVR für die Code-Generierung im Competitive Programming.
English
Recent reasoning-first models (e.g., OpenAI o1, DeepSeek R1) have spurred a resurgence of interest in RLVR. Nevertheless, advances are dominated by mathematics (e.g., AIME), with competitive-programming code generation underexplored and data curation receiving less attention than RL algorithm design. We investigate how to construct RLVR datasets (i.e., RL prompts) and present practical training techniques that yield strong performance on competitive-programming code generation. Our pipeline begins with supervised fine-tuning (SFT) distilled from strong open-source models, augmented with general-purpose and reasoning-intensive data. RL then follows a two-stage process with executable, testcase-driven rewards: first, training on a large, uniformly distributed set of competitive-programming problems using Group Relative Policy Optimization (GRPO) with 8 rollouts per prompt and a relatively short response-generation window (e.g., 32k during SFT and 24k in this stage) to expand entropy and mitigate repetition and truncation; second, we perform Pre-GRPO: updating on a small, high-quality set of challenging problems with a large rollout budget (64 rollouts per prompt) under a hard-focus curriculum that continuously retains the most difficult instances throughout training. We implement our method on Qwen2.5-32B and evaluate on LeetCode and Codeforces weekly contests to avoid data leakage. The resulting model achieves state-of-the-art performance among models of similar scale and is comparable to leading systems such as DeepSeek v3.1 and Doubao-1.5-Thinking. We also examine scaling trends and observe strong RL scaling on an internal large-scale MoE model. Our study distills concise best practices for data curation, entropy expansion, and curriculum design in RLVR for competitive-programming code generation.
PDF505December 2, 2025