rStar-Coder : Mise à l'échelle du raisonnement compétitif en programmation avec un jeu de données vérifié à grande échelle
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset
May 27, 2025
Auteurs: Yifei Liu, Li Lyna Zhang, Yi Zhu, Bingcheng Dong, Xudong Zhou, Ning Shang, Fan Yang, Mao Yang
cs.AI
Résumé
L’amélioration du raisonnement sur le code dans les grands modèles de langage (LLMs) est fondamentalement limitée par la rareté des jeux de données de haute difficulté, en particulier ceux incluant des cas de test vérifiables en entrée-sortie, nécessaires pour une validation rigoureuse des solutions à grande échelle. Nous présentons rStar-Coder, qui améliore significativement les capacités de raisonnement sur le code des LLMs en construisant un jeu de données à grande échelle et vérifié, comprenant 418K problèmes de code de niveau compétition, 580K solutions à raisonnement long ainsi que des cas de test riches et variés en termes de difficulté. Cela est réalisé grâce à trois contributions principales : (1) nous sélectionnons des problèmes de programmation compétitive et des solutions de référence pour synthétiser de nouveaux problèmes résolubles ; (2) nous introduisons un pipeline fiable de synthèse de cas de test en entrée-sortie, qui découple la génération en une méthode en trois étapes pour la génération des entrées et un mécanisme de vérification mutuelle pour un étiquetage efficace des sorties ; (3) nous enrichissons les problèmes avec des solutions à raisonnement long, vérifiées par des cas de test de haute qualité. Des expériences approfondies sur les modèles Qwen (1,5B-14B) à travers divers benchmarks de raisonnement sur le code démontrent la supériorité du jeu de données rStar-Coder, atteignant des performances de pointe comparables à celles des LLMs de raisonnement les plus avancés, mais avec des tailles de modèles bien plus réduites. Sur LiveCodeBench, rStar-Coder améliore Qwen2.5-7B de 17,4 % à un impressionnant 57,3 %, et Qwen2.5-14B de 23,3 % à 62,5 %, surpassant o3-mini (low) de 3,1 %. Sur le défi plus exigeant de l’USA Computing Olympiad, notre modèle de 7B atteint une précision moyenne pass@1 de 16,15 %, surpassant le modèle de pointe QWQ-32B. Le code et le jeu de données seront publiés sur https://github.com/microsoft/rStar.
English
Advancing code reasoning in large language models (LLMs) is fundamentally
limited by the scarcity of high-difficulty datasets, especially those with
verifiable input-output test cases necessary for rigorous solution validation
at scale. We introduce rStar-Coder, which significantly improves LLM code
reasoning capabilities by constructing a large-scale, verified dataset of 418K
competition-level code problems, 580K long-reasoning solutions along with rich
test cases of varying difficulty. This is achieved through three core
contributions: (1) we curate competitive programming code problems and oracle
solutions to synthesize new, solvable problems; (2) we introduce a reliable
input-output test case synthesis pipeline that decouples the generation into a
three-step input generation method and a mutual verification mechanism for
effective output labeling; (3) we augment problems with high-quality,
test-case-verified long-reasoning solutions. Extensive experiments on Qwen
models (1.5B-14B) across various code reasoning benchmarks demonstrate the
superiority of rStar-Coder dataset, achieving leading performance comparable to
frontier reasoning LLMs with much smaller model sizes. On LiveCodeBench,
rStar-Coder improves Qwen2.5-7B from 17.4% to an impressive 57.3%, and
Qwen2.5-14B from 23.3% to 62.5%, surpassing o3-mini (low) by3.1%. On the more
challenging USA Computing Olympiad, our 7B model achieves an average pass@1
accuracy of 16.15%, outperforming the frontier-level QWQ-32B. Code and the
dataset will be released at https://github.com/microsoft/rStar.Summary
AI-Generated Summary