rStar-Coder: Escalando el Razonamiento Competitivo en Código con un Conjunto de Datos Verificado a Gran Escala
rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset
May 27, 2025
Autores: Yifei Liu, Li Lyna Zhang, Yi Zhu, Bingcheng Dong, Xudong Zhou, Ning Shang, Fan Yang, Mao Yang
cs.AI
Resumen
El avance en el razonamiento de código en los modelos de lenguaje de gran escala (LLMs) se ve fundamentalmente limitado por la escasez de conjuntos de datos de alta dificultad, especialmente aquellos con casos de prueba verificables de entrada-salida necesarios para una validación rigurosa de soluciones a gran escala. Presentamos rStar-Coder, que mejora significativamente las capacidades de razonamiento de código de los LLMs mediante la construcción de un conjunto de datos verificado a gran escala de 418K problemas de código de nivel competitivo, 580K soluciones de razonamiento extenso junto con casos de prueba ricos y de variada dificultad. Esto se logra a través de tres contribuciones principales: (1) seleccionamos problemas de programación competitiva y soluciones oráculo para sintetizar nuevos problemas resolubles; (2) introducimos una canalización confiable de síntesis de casos de prueba de entrada-salida que desacopla la generación en un método de generación de entrada en tres pasos y un mecanismo de verificación mutua para un etiquetado efectivo de salidas; (3) enriquecemos los problemas con soluciones de razonamiento extenso verificadas mediante casos de prueba de alta calidad. Experimentos extensivos en modelos Qwen (1.5B-14B) a través de varios benchmarks de razonamiento de código demuestran la superioridad del conjunto de datos rStar-Coder, logrando un rendimiento líder comparable a los LLMs de razonamiento de vanguardia con tamaños de modelo mucho más pequeños. En LiveCodeBench, rStar-Coder mejora Qwen2.5-7B del 17.4% a un impresionante 57.3%, y Qwen2.5-14B del 23.3% al 62.5%, superando a o3-mini (bajo) en un 3.1%. En el más desafiante USA Computing Olympiad, nuestro modelo de 7B logra una precisión promedio pass@1 del 16.15%, superando al QWQ-32B de nivel de vanguardia. El código y el conjunto de datos se publicarán en https://github.com/microsoft/rStar.
English
Advancing code reasoning in large language models (LLMs) is fundamentally
limited by the scarcity of high-difficulty datasets, especially those with
verifiable input-output test cases necessary for rigorous solution validation
at scale. We introduce rStar-Coder, which significantly improves LLM code
reasoning capabilities by constructing a large-scale, verified dataset of 418K
competition-level code problems, 580K long-reasoning solutions along with rich
test cases of varying difficulty. This is achieved through three core
contributions: (1) we curate competitive programming code problems and oracle
solutions to synthesize new, solvable problems; (2) we introduce a reliable
input-output test case synthesis pipeline that decouples the generation into a
three-step input generation method and a mutual verification mechanism for
effective output labeling; (3) we augment problems with high-quality,
test-case-verified long-reasoning solutions. Extensive experiments on Qwen
models (1.5B-14B) across various code reasoning benchmarks demonstrate the
superiority of rStar-Coder dataset, achieving leading performance comparable to
frontier reasoning LLMs with much smaller model sizes. On LiveCodeBench,
rStar-Coder improves Qwen2.5-7B from 17.4% to an impressive 57.3%, and
Qwen2.5-14B from 23.3% to 62.5%, surpassing o3-mini (low) by3.1%. On the more
challenging USA Computing Olympiad, our 7B model achieves an average pass@1
accuracy of 16.15%, outperforming the frontier-level QWQ-32B. Code and the
dataset will be released at https://github.com/microsoft/rStar.Summary
AI-Generated Summary