rStar-Coder: Escalonando o Raciocínio Competitivo em Código com um Conjunto de Dados Verificado em Grande Escala

Resumo

O avanço do raciocínio de código em modelos de linguagem de grande escala (LLMs) é fundamentalmente limitado pela escassez de conjuntos de dados de alta dificuldade, especialmente aqueles com casos de teste de entrada-saída verificáveis necessários para validação rigorosa de soluções em escala. Apresentamos o rStar-Coder, que melhora significativamente as capacidades de raciocínio de código dos LLMs ao construir um conjunto de dados em larga escala e verificado de 418K problemas de código de nível competitivo, 580K soluções de raciocínio longo juntamente com casos de teste ricos e de variada dificuldade. Isso é alcançado por meio de três contribuições principais: (1) curadoria de problemas de programação competitiva e soluções oráculo para sintetizar novos problemas solucionáveis; (2) introdução de um pipeline confiável de síntese de casos de teste de entrada-saída que desacopla a geração em um método de geração de entrada em três etapas e um mecanismo de verificação mútua para rotulação eficaz de saída; (3) aumento dos problemas com soluções de raciocínio longo de alta qualidade e verificadas por casos de teste. Experimentos extensivos nos modelos Qwen (1.5B-14B) em vários benchmarks de raciocínio de código demonstram a superioridade do conjunto de dados rStar-Coder, alcançando desempenho líder comparável aos LLMs de raciocínio de ponta com tamanhos de modelo muito menores. No LiveCodeBench, o rStar-Coder melhora o Qwen2.5-7B de 17.4% para impressionantes 57.3%, e o Qwen2.5-14B de 23.3% para 62.5%, superando o o3-mini (baixo) em 3.1%. No mais desafiador USA Computing Olympiad, nosso modelo de 7B alcança uma precisão média pass@1 de 16.15%, superando o QWQ-32B de nível de ponta. O código e o conjunto de dados serão liberados em https://github.com/microsoft/rStar.

English

Advancing code reasoning in large language models (LLMs) is fundamentally limited by the scarcity of high-difficulty datasets, especially those with verifiable input-output test cases necessary for rigorous solution validation at scale. We introduce rStar-Coder, which significantly improves LLM code reasoning capabilities by constructing a large-scale, verified dataset of 418K competition-level code problems, 580K long-reasoning solutions along with rich test cases of varying difficulty. This is achieved through three core contributions: (1) we curate competitive programming code problems and oracle solutions to synthesize new, solvable problems; (2) we introduce a reliable input-output test case synthesis pipeline that decouples the generation into a three-step input generation method and a mutual verification mechanism for effective output labeling; (3) we augment problems with high-quality, test-case-verified long-reasoning solutions. Extensive experiments on Qwen models (1.5B-14B) across various code reasoning benchmarks demonstrate the superiority of rStar-Coder dataset, achieving leading performance comparable to frontier reasoning LLMs with much smaller model sizes. On LiveCodeBench, rStar-Coder improves Qwen2.5-7B from 17.4% to an impressive 57.3%, and Qwen2.5-14B from 23.3% to 62.5%, surpassing o3-mini (low) by3.1%. On the more challenging USA Computing Olympiad, our 7B model achieves an average pass@1 accuracy of 16.15%, outperforming the frontier-level QWQ-32B. Code and the dataset will be released at https://github.com/microsoft/rStar.

rStar-Coder: Escalonando o Raciocínio Competitivo em Código com um Conjunto de Dados Verificado em Grande Escala

rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

Resumo

Support