rStar-Coder: Schaalbaar competitief coderedeneren met een grootschalige geverifieerde dataset
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset
May 27, 2025
Auteurs: Yifei Liu, Li Lyna Zhang, Yi Zhu, Bingcheng Dong, Xudong Zhou, Ning Shang, Fan Yang, Mao Yang
cs.AI
Samenvatting
Het bevorderen van coderedenering in grote taalmodellen (LLMs) wordt fundamenteel beperkt door de schaarste aan datasets met hoge moeilijkheidsgraad, vooral die met verifieerbare invoer-uitvoer testgevallen die nodig zijn voor rigoureuze validatie van oplossingen op grote schaal. Wij introduceren rStar-Coder, dat de coderingsredeneercapaciteiten van LLMs aanzienlijk verbetert door het construeren van een grootschalige, geverifieerde dataset van 418K wedstrijdniveau codeproblemen, 580K lange-redenering oplossingen samen met rijke testgevallen van variërende moeilijkheid. Dit wordt bereikt door drie kernbijdragen: (1) we selecteren competitieve programmeercodeproblemen en orakeloplossingen om nieuwe, oplosbare problemen te synthetiseren; (2) we introduceren een betrouwbare invoer-uitvoer testgeval synthesepijplijn die de generatie ontkoppelt in een driedelige invoergeneratiemethode en een wederzijdse verificatiemechanisme voor effectieve uitvoerlabeling; (3) we verrijken problemen met hoogwaardige, testgeval-geverifieerde lange-redenering oplossingen. Uitgebreide experimenten op Qwen-modellen (1.5B-14B) over verschillende coderingsredeneerbenchmarks tonen de superioriteit van de rStar-Coder dataset aan, waarbij toonaangevende prestaties worden bereikt die vergelijkbaar zijn met frontier redenering LLMs met veel kleinere modelgroottes. Op LiveCodeBench verbetert rStar-Coder Qwen2.5-7B van 17.4% naar een indrukwekkende 57.3%, en Qwen2.5-14B van 23.3% naar 62.5%, waarmee o3-mini (laag) met 3.1% wordt overtroffen. Op de meer uitdagende USA Computing Olympiad bereikt ons 7B-model een gemiddelde pass@1 nauwkeurigheid van 16.15%, waarmee het frontier-level QWQ-32B overtreft. Code en de dataset zullen worden vrijgegeven op https://github.com/microsoft/rStar.
English
Advancing code reasoning in large language models (LLMs) is fundamentally
limited by the scarcity of high-difficulty datasets, especially those with
verifiable input-output test cases necessary for rigorous solution validation
at scale. We introduce rStar-Coder, which significantly improves LLM code
reasoning capabilities by constructing a large-scale, verified dataset of 418K
competition-level code problems, 580K long-reasoning solutions along with rich
test cases of varying difficulty. This is achieved through three core
contributions: (1) we curate competitive programming code problems and oracle
solutions to synthesize new, solvable problems; (2) we introduce a reliable
input-output test case synthesis pipeline that decouples the generation into a
three-step input generation method and a mutual verification mechanism for
effective output labeling; (3) we augment problems with high-quality,
test-case-verified long-reasoning solutions. Extensive experiments on Qwen
models (1.5B-14B) across various code reasoning benchmarks demonstrate the
superiority of rStar-Coder dataset, achieving leading performance comparable to
frontier reasoning LLMs with much smaller model sizes. On LiveCodeBench,
rStar-Coder improves Qwen2.5-7B from 17.4% to an impressive 57.3%, and
Qwen2.5-14B from 23.3% to 62.5%, surpassing o3-mini (low) by3.1%. On the more
challenging USA Computing Olympiad, our 7B model achieves an average pass@1
accuracy of 16.15%, outperforming the frontier-level QWQ-32B. Code and the
dataset will be released at https://github.com/microsoft/rStar.