rStar-Coder: Skalierung von wettbewerbsfähigem Code-Reasoning mit einem groß angelegten verifizierten Datensatz
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset
May 27, 2025
Autoren: Yifei Liu, Li Lyna Zhang, Yi Zhu, Bingcheng Dong, Xudong Zhou, Ning Shang, Fan Yang, Mao Yang
cs.AI
Zusammenfassung
Die Weiterentwicklung der Code-Reasoning-Fähigkeiten in großen Sprachmodellen (LLMs) wird grundlegend durch die Knappheit von hochschwierigen Datensätzen eingeschränkt, insbesondere solchen mit überprüfbaren Eingabe-Ausgabe-Testfällen, die für eine rigorose Lösungsvalidierung im großen Maßstab erforderlich sind. Wir stellen rStar-Coder vor, das die Code-Reasoning-Fähigkeiten von LLMs erheblich verbessert, indem es einen groß angelegten, verifizierten Datensatz von 418K wettbewerbsorientierten Code-Problemen, 580K langen Lösungswegen sowie umfangreichen Testfällen unterschiedlicher Schwierigkeitsgrade konstruiert. Dies wird durch drei zentrale Beiträge erreicht: (1) Wir kuratieren Wettbewerbsprogrammierungs-Codeprobleme und Oracle-Lösungen, um neue, lösbare Probleme zu synthetisieren; (2) Wir führen eine zuverlässige Pipeline zur Synthese von Eingabe-Ausgabe-Testfällen ein, die die Generierung in eine dreistufige Eingabegenerierungsmethode und einen gegenseitigen Verifizierungsmechanismus zur effektiven Ausgabekennzeichnung entkoppelt; (3) Wir erweitern die Probleme um hochwertige, testfallverifizierte lange Lösungswege. Umfangreiche Experimente mit Qwen-Modellen (1,5B-14B) über verschiedene Code-Reasoning-Benchmarks demonstrieren die Überlegenheit des rStar-Coder-Datensatzes, der eine führende Leistung erzielt, die mit der von fortschrittlichen Reasoning-LLMs vergleichbar ist, jedoch mit deutlich kleineren Modellgrößen. Auf LiveCodeBench verbessert rStar-Coder Qwen2.5-7B von 17,4 % auf beeindruckende 57,3 % und Qwen2.5-14B von 23,3 % auf 62,5 %, wobei es o3-mini (low) um 3,1 % übertrifft. Bei der anspruchsvolleren USA Computing Olympiad erreicht unser 7B-Modell eine durchschnittliche Pass@1-Genauigkeit von 16,15 % und übertrifft damit das Spitzenniveau von QWQ-32B. Der Code und der Datensatz werden unter https://github.com/microsoft/rStar veröffentlicht.
English
Advancing code reasoning in large language models (LLMs) is fundamentally
limited by the scarcity of high-difficulty datasets, especially those with
verifiable input-output test cases necessary for rigorous solution validation
at scale. We introduce rStar-Coder, which significantly improves LLM code
reasoning capabilities by constructing a large-scale, verified dataset of 418K
competition-level code problems, 580K long-reasoning solutions along with rich
test cases of varying difficulty. This is achieved through three core
contributions: (1) we curate competitive programming code problems and oracle
solutions to synthesize new, solvable problems; (2) we introduce a reliable
input-output test case synthesis pipeline that decouples the generation into a
three-step input generation method and a mutual verification mechanism for
effective output labeling; (3) we augment problems with high-quality,
test-case-verified long-reasoning solutions. Extensive experiments on Qwen
models (1.5B-14B) across various code reasoning benchmarks demonstrate the
superiority of rStar-Coder dataset, achieving leading performance comparable to
frontier reasoning LLMs with much smaller model sizes. On LiveCodeBench,
rStar-Coder improves Qwen2.5-7B from 17.4% to an impressive 57.3%, and
Qwen2.5-14B from 23.3% to 62.5%, surpassing o3-mini (low) by3.1%. On the more
challenging USA Computing Olympiad, our 7B model achieves an average pass@1
accuracy of 16.15%, outperforming the frontier-level QWQ-32B. Code and the
dataset will be released at https://github.com/microsoft/rStar.Summary
AI-Generated Summary