rStar-Coder: Scalabilità del Ragionamento Competitivo sul Codice con un Ampio Dataset Verificato
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset
May 27, 2025
Autori: Yifei Liu, Li Lyna Zhang, Yi Zhu, Bingcheng Dong, Xudong Zhou, Ning Shang, Fan Yang, Mao Yang
cs.AI
Abstract
Il progresso nel ragionamento sul codice nei grandi modelli linguistici (LLM) è fondamentalmente limitato dalla scarsità di dataset ad alta difficoltà, in particolare quelli con casi di test input-output verificabili necessari per una validazione rigorosa delle soluzioni su larga scala. Introduciamo rStar-Coder, che migliora significativamente le capacità di ragionamento sul codice degli LLM costruendo un dataset su larga scala e verificato di 418K problemi di codice di livello competitivo, 580K soluzioni con ragionamenti estesi insieme a ricchi casi di test di varia difficoltà. Questo è stato raggiunto attraverso tre contributi principali: (1) selezioniamo problemi di programmazione competitiva e soluzioni oracolo per sintetizzare nuovi problemi risolvibili; (2) introduciamo una pipeline affidabile per la sintesi di casi di test input-output che scompone la generazione in un metodo a tre passi per la generazione degli input e un meccanismo di verifica reciproca per un'etichettatura efficace degli output; (3) arricchiamo i problemi con soluzioni di ragionamento esteso di alta qualità, verificate tramite casi di test. Esperimenti estensivi sui modelli Qwen (1.5B-14B) su vari benchmark di ragionamento sul codice dimostrano la superiorità del dataset rStar-Coder, raggiungendo prestazioni leader paragonabili ai migliori LLM di ragionamento con dimensioni del modello molto più ridotte. Su LiveCodeBench, rStar-Coder migliora Qwen2.5-7B dal 17.4% a un impressionante 57.3%, e Qwen2.5-14B dal 23.3% al 62.5%, superando o3-mini (low) del 3.1%. Sul più impegnativo USA Computing Olympiad, il nostro modello da 7B raggiunge una precisione media pass@1 del 16.15%, superando il livello di frontiera QWQ-32B. Il codice e il dataset saranno rilasciati su https://github.com/microsoft/rStar.
English
Advancing code reasoning in large language models (LLMs) is fundamentally
limited by the scarcity of high-difficulty datasets, especially those with
verifiable input-output test cases necessary for rigorous solution validation
at scale. We introduce rStar-Coder, which significantly improves LLM code
reasoning capabilities by constructing a large-scale, verified dataset of 418K
competition-level code problems, 580K long-reasoning solutions along with rich
test cases of varying difficulty. This is achieved through three core
contributions: (1) we curate competitive programming code problems and oracle
solutions to synthesize new, solvable problems; (2) we introduce a reliable
input-output test case synthesis pipeline that decouples the generation into a
three-step input generation method and a mutual verification mechanism for
effective output labeling; (3) we augment problems with high-quality,
test-case-verified long-reasoning solutions. Extensive experiments on Qwen
models (1.5B-14B) across various code reasoning benchmarks demonstrate the
superiority of rStar-Coder dataset, achieving leading performance comparable to
frontier reasoning LLMs with much smaller model sizes. On LiveCodeBench,
rStar-Coder improves Qwen2.5-7B from 17.4% to an impressive 57.3%, and
Qwen2.5-14B from 23.3% to 62.5%, surpassing o3-mini (low) by3.1%. On the more
challenging USA Computing Olympiad, our 7B model achieves an average pass@1
accuracy of 16.15%, outperforming the frontier-level QWQ-32B. Code and the
dataset will be released at https://github.com/microsoft/rStar.