rStar-Coder: Масштабирование конкурентного анализа кода с использованием крупномасштабного верифицированного набора данных

Аннотация

Развитие способностей крупных языковых моделей (LLM) к анализу кода фундаментально ограничено нехваткой наборов данных высокой сложности, особенно тех, которые содержат проверяемые тестовые примеры, необходимые для строгой валидации решений в масштабе. Мы представляем rStar-Coder, который значительно улучшает способности LLM к анализу кода за счет создания крупномасштабного, проверенного набора данных, включающего 418 тысяч задач уровня соревнований, 580 тысяч решений с длинными рассуждениями, а также богатый набор тестовых примеров различной сложности. Это достигнуто благодаря трем ключевым вкладам: (1) мы отбираем задачи из соревновательного программирования и эталонные решения для синтеза новых, решаемых задач; (2) мы внедряем надежный конвейер синтеза тестовых примеров, который разделяет генерацию на трехэтапный метод создания входных данных и механизм взаимной проверки для эффективной маркировки выходных данных; (3) мы дополняем задачи высококачественными решениями с длинными рассуждениями, проверенными тестовыми примерами. Масштабные эксперименты на моделях Qwen (1.5B-14B) на различных бенчмарках анализа кода демонстрируют превосходство набора данных rStar-Coder, достигая лидирующих результатов, сопоставимых с передовыми LLM для рассуждений, при значительно меньших размерах моделей. На LiveCodeBench rStar-Coder улучшает Qwen2.5-7B с 17,4% до впечатляющих 57,3%, а Qwen2.5-14B — с 23,3% до 62,5%, превосходя o3-mini (low) на 3,1%. На более сложном USA Computing Olympiad наша модель 7B достигает средней точности pass@1 в 16,15%, превосходя передовую модель QWQ-32B. Код и набор данных будут опубликованы по адресу https://github.com/microsoft/rStar.

English

Advancing code reasoning in large language models (LLMs) is fundamentally limited by the scarcity of high-difficulty datasets, especially those with verifiable input-output test cases necessary for rigorous solution validation at scale. We introduce rStar-Coder, which significantly improves LLM code reasoning capabilities by constructing a large-scale, verified dataset of 418K competition-level code problems, 580K long-reasoning solutions along with rich test cases of varying difficulty. This is achieved through three core contributions: (1) we curate competitive programming code problems and oracle solutions to synthesize new, solvable problems; (2) we introduce a reliable input-output test case synthesis pipeline that decouples the generation into a three-step input generation method and a mutual verification mechanism for effective output labeling; (3) we augment problems with high-quality, test-case-verified long-reasoning solutions. Extensive experiments on Qwen models (1.5B-14B) across various code reasoning benchmarks demonstrate the superiority of rStar-Coder dataset, achieving leading performance comparable to frontier reasoning LLMs with much smaller model sizes. On LiveCodeBench, rStar-Coder improves Qwen2.5-7B from 17.4% to an impressive 57.3%, and Qwen2.5-14B from 23.3% to 62.5%, surpassing o3-mini (low) by3.1%. On the more challenging USA Computing Olympiad, our 7B model achieves an average pass@1 accuracy of 16.15%, outperforming the frontier-level QWQ-32B. Code and the dataset will be released at https://github.com/microsoft/rStar.

rStar-Coder: Масштабирование конкурентного анализа кода с использованием крупномасштабного верифицированного набора данных

rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

Аннотация

Support