rStar-Coder: Масштабирование конкурентного анализа кода с использованием крупномасштабного верифицированного набора данных
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset
May 27, 2025
Авторы: Yifei Liu, Li Lyna Zhang, Yi Zhu, Bingcheng Dong, Xudong Zhou, Ning Shang, Fan Yang, Mao Yang
cs.AI
Аннотация
Развитие способностей крупных языковых моделей (LLM) к анализу кода фундаментально ограничено нехваткой наборов данных высокой сложности, особенно тех, которые содержат проверяемые тестовые примеры, необходимые для строгой валидации решений в масштабе. Мы представляем rStar-Coder, который значительно улучшает способности LLM к анализу кода за счет создания крупномасштабного, проверенного набора данных, включающего 418 тысяч задач уровня соревнований, 580 тысяч решений с длинными рассуждениями, а также богатый набор тестовых примеров различной сложности. Это достигнуто благодаря трем ключевым вкладам: (1) мы отбираем задачи из соревновательного программирования и эталонные решения для синтеза новых, решаемых задач; (2) мы внедряем надежный конвейер синтеза тестовых примеров, который разделяет генерацию на трехэтапный метод создания входных данных и механизм взаимной проверки для эффективной маркировки выходных данных; (3) мы дополняем задачи высококачественными решениями с длинными рассуждениями, проверенными тестовыми примерами. Масштабные эксперименты на моделях Qwen (1.5B-14B) на различных бенчмарках анализа кода демонстрируют превосходство набора данных rStar-Coder, достигая лидирующих результатов, сопоставимых с передовыми LLM для рассуждений, при значительно меньших размерах моделей. На LiveCodeBench rStar-Coder улучшает Qwen2.5-7B с 17,4% до впечатляющих 57,3%, а Qwen2.5-14B — с 23,3% до 62,5%, превосходя o3-mini (low) на 3,1%. На более сложном USA Computing Olympiad наша модель 7B достигает средней точности pass@1 в 16,15%, превосходя передовую модель QWQ-32B. Код и набор данных будут опубликованы по адресу https://github.com/microsoft/rStar.
English
Advancing code reasoning in large language models (LLMs) is fundamentally
limited by the scarcity of high-difficulty datasets, especially those with
verifiable input-output test cases necessary for rigorous solution validation
at scale. We introduce rStar-Coder, which significantly improves LLM code
reasoning capabilities by constructing a large-scale, verified dataset of 418K
competition-level code problems, 580K long-reasoning solutions along with rich
test cases of varying difficulty. This is achieved through three core
contributions: (1) we curate competitive programming code problems and oracle
solutions to synthesize new, solvable problems; (2) we introduce a reliable
input-output test case synthesis pipeline that decouples the generation into a
three-step input generation method and a mutual verification mechanism for
effective output labeling; (3) we augment problems with high-quality,
test-case-verified long-reasoning solutions. Extensive experiments on Qwen
models (1.5B-14B) across various code reasoning benchmarks demonstrate the
superiority of rStar-Coder dataset, achieving leading performance comparable to
frontier reasoning LLMs with much smaller model sizes. On LiveCodeBench,
rStar-Coder improves Qwen2.5-7B from 17.4% to an impressive 57.3%, and
Qwen2.5-14B from 23.3% to 62.5%, surpassing o3-mini (low) by3.1%. On the more
challenging USA Computing Olympiad, our 7B model achieves an average pass@1
accuracy of 16.15%, outperforming the frontier-level QWQ-32B. Code and the
dataset will be released at https://github.com/microsoft/rStar.Summary
AI-Generated Summary