rStar-Coder: Escalando el Razonamiento Competitivo en Código con un Conjunto de Datos Verificado a Gran Escala

Resumen

El avance en el razonamiento de código en los modelos de lenguaje de gran escala (LLMs) se ve fundamentalmente limitado por la escasez de conjuntos de datos de alta dificultad, especialmente aquellos con casos de prueba verificables de entrada-salida necesarios para una validación rigurosa de soluciones a gran escala. Presentamos rStar-Coder, que mejora significativamente las capacidades de razonamiento de código de los LLMs mediante la construcción de un conjunto de datos verificado a gran escala de 418K problemas de código de nivel competitivo, 580K soluciones de razonamiento extenso junto con casos de prueba ricos y de variada dificultad. Esto se logra a través de tres contribuciones principales: (1) seleccionamos problemas de programación competitiva y soluciones oráculo para sintetizar nuevos problemas resolubles; (2) introducimos una canalización confiable de síntesis de casos de prueba de entrada-salida que desacopla la generación en un método de generación de entrada en tres pasos y un mecanismo de verificación mutua para un etiquetado efectivo de salidas; (3) enriquecemos los problemas con soluciones de razonamiento extenso verificadas mediante casos de prueba de alta calidad. Experimentos extensivos en modelos Qwen (1.5B-14B) a través de varios benchmarks de razonamiento de código demuestran la superioridad del conjunto de datos rStar-Coder, logrando un rendimiento líder comparable a los LLMs de razonamiento de vanguardia con tamaños de modelo mucho más pequeños. En LiveCodeBench, rStar-Coder mejora Qwen2.5-7B del 17.4% a un impresionante 57.3%, y Qwen2.5-14B del 23.3% al 62.5%, superando a o3-mini (bajo) en un 3.1%. En el más desafiante USA Computing Olympiad, nuestro modelo de 7B logra una precisión promedio pass@1 del 16.15%, superando al QWQ-32B de nivel de vanguardia. El código y el conjunto de datos se publicarán en https://github.com/microsoft/rStar.

English

Advancing code reasoning in large language models (LLMs) is fundamentally limited by the scarcity of high-difficulty datasets, especially those with verifiable input-output test cases necessary for rigorous solution validation at scale. We introduce rStar-Coder, which significantly improves LLM code reasoning capabilities by constructing a large-scale, verified dataset of 418K competition-level code problems, 580K long-reasoning solutions along with rich test cases of varying difficulty. This is achieved through three core contributions: (1) we curate competitive programming code problems and oracle solutions to synthesize new, solvable problems; (2) we introduce a reliable input-output test case synthesis pipeline that decouples the generation into a three-step input generation method and a mutual verification mechanism for effective output labeling; (3) we augment problems with high-quality, test-case-verified long-reasoning solutions. Extensive experiments on Qwen models (1.5B-14B) across various code reasoning benchmarks demonstrate the superiority of rStar-Coder dataset, achieving leading performance comparable to frontier reasoning LLMs with much smaller model sizes. On LiveCodeBench, rStar-Coder improves Qwen2.5-7B from 17.4% to an impressive 57.3%, and Qwen2.5-14B from 23.3% to 62.5%, surpassing o3-mini (low) by3.1%. On the more challenging USA Computing Olympiad, our 7B model achieves an average pass@1 accuracy of 16.15%, outperforming the frontier-level QWQ-32B. Code and the dataset will be released at https://github.com/microsoft/rStar.

rStar-Coder: Escalando el Razonamiento Competitivo en Código con un Conjunto de Datos Verificado a Gran Escala

rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset

Resumen

Support