ChatPaper.aiChatPaper

rStar-Coder: Schaalbaar competitief coderedeneren met een grootschalige geverifieerde dataset

rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

May 27, 2025
Auteurs: Yifei Liu, Li Lyna Zhang, Yi Zhu, Bingcheng Dong, Xudong Zhou, Ning Shang, Fan Yang, Mao Yang
cs.AI

Samenvatting

Het bevorderen van coderedenering in grote taalmodellen (LLMs) wordt fundamenteel beperkt door de schaarste aan datasets met hoge moeilijkheidsgraad, vooral die met verifieerbare invoer-uitvoer testgevallen die nodig zijn voor rigoureuze validatie van oplossingen op grote schaal. Wij introduceren rStar-Coder, dat de coderingsredeneercapaciteiten van LLMs aanzienlijk verbetert door het construeren van een grootschalige, geverifieerde dataset van 418K wedstrijdniveau codeproblemen, 580K lange-redenering oplossingen samen met rijke testgevallen van variërende moeilijkheid. Dit wordt bereikt door drie kernbijdragen: (1) we selecteren competitieve programmeercodeproblemen en orakeloplossingen om nieuwe, oplosbare problemen te synthetiseren; (2) we introduceren een betrouwbare invoer-uitvoer testgeval synthesepijplijn die de generatie ontkoppelt in een driedelige invoergeneratiemethode en een wederzijdse verificatiemechanisme voor effectieve uitvoerlabeling; (3) we verrijken problemen met hoogwaardige, testgeval-geverifieerde lange-redenering oplossingen. Uitgebreide experimenten op Qwen-modellen (1.5B-14B) over verschillende coderingsredeneerbenchmarks tonen de superioriteit van de rStar-Coder dataset aan, waarbij toonaangevende prestaties worden bereikt die vergelijkbaar zijn met frontier redenering LLMs met veel kleinere modelgroottes. Op LiveCodeBench verbetert rStar-Coder Qwen2.5-7B van 17.4% naar een indrukwekkende 57.3%, en Qwen2.5-14B van 23.3% naar 62.5%, waarmee o3-mini (laag) met 3.1% wordt overtroffen. Op de meer uitdagende USA Computing Olympiad bereikt ons 7B-model een gemiddelde pass@1 nauwkeurigheid van 16.15%, waarmee het frontier-level QWQ-32B overtreft. Code en de dataset zullen worden vrijgegeven op https://github.com/microsoft/rStar.
English
Advancing code reasoning in large language models (LLMs) is fundamentally limited by the scarcity of high-difficulty datasets, especially those with verifiable input-output test cases necessary for rigorous solution validation at scale. We introduce rStar-Coder, which significantly improves LLM code reasoning capabilities by constructing a large-scale, verified dataset of 418K competition-level code problems, 580K long-reasoning solutions along with rich test cases of varying difficulty. This is achieved through three core contributions: (1) we curate competitive programming code problems and oracle solutions to synthesize new, solvable problems; (2) we introduce a reliable input-output test case synthesis pipeline that decouples the generation into a three-step input generation method and a mutual verification mechanism for effective output labeling; (3) we augment problems with high-quality, test-case-verified long-reasoning solutions. Extensive experiments on Qwen models (1.5B-14B) across various code reasoning benchmarks demonstrate the superiority of rStar-Coder dataset, achieving leading performance comparable to frontier reasoning LLMs with much smaller model sizes. On LiveCodeBench, rStar-Coder improves Qwen2.5-7B from 17.4% to an impressive 57.3%, and Qwen2.5-14B from 23.3% to 62.5%, surpassing o3-mini (low) by3.1%. On the more challenging USA Computing Olympiad, our 7B model achieves an average pass@1 accuracy of 16.15%, outperforming the frontier-level QWQ-32B. Code and the dataset will be released at https://github.com/microsoft/rStar.
PDF305May 28, 2025