OpenCodeReasoning-II: Un Enfoque Simple de Escalado en Tiempo de Prueba mediante Autocrítica
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique
July 11, 2025
Autores: Wasi Uddin Ahmad, Somshubra Majumdar, Aleksander Ficek, Sean Narenthiran, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Vahid Noroozi, Boris Ginsburg
cs.AI
Resumen
Los recientes avances en los modelos de lenguaje de gran escala (LLMs) basados en razonamiento, particularmente su potencial a través del escalamiento en tiempo de prueba, han creado oportunidades significativas para la destilación en la generación y crítica de código. Sin embargo, el progreso en ambas áreas depende fundamentalmente de conjuntos de datos a gran escala y de alta calidad. En este trabajo, presentamos OpenCodeReasoning-II, un conjunto de datos que consta de 2.5 millones de triples pregunta-solución-crítica (aproximadamente 35K preguntas de programación únicas), lo que lo convierte en casi el doble del tamaño del mayor conjunto de datos de razonamiento de código disponible públicamente anterior. En este trabajo, empleamos una estrategia de ajuste fino supervisado en dos etapas. La primera etapa se centra en el ajuste fino para la generación de código, mientras que la segunda etapa implica el entrenamiento conjunto de modelos tanto para la generación como para la crítica de código. Nuestros modelos Qwen2.5-Instruct ajustados logran un rendimiento en la generación de código que supera o iguala a los mejores modelos destilados de peso abierto previos. Notablemente, la integración de nuestros modelos de generación y crítica de código conduce a mejoras significativas en el rendimiento competitivo de programación. Además, presentamos una extensión del benchmark LiveCodeBench para apoyar específicamente el lenguaje de programación C++, facilitando así una evaluación más completa de los LLMs utilizando este benchmark.
English
Recent advancements in reasoning-based Large Language Models (LLMs),
particularly their potential through test-time scaling, have created
significant opportunities for distillation in code generation and critique.
However, progress in both areas fundamentally depends on large-scale,
high-quality datasets. In this work, we introduce OpenCodeReasoning-II, a
dataset consists of 2.5M question-solution-critique triples (approx. 35K unique
programming questions), making it nearly twice the size of the previous largest
publicly available code reasoning dataset. In this work, we employ a two-stage
supervised fine-tuning strategy. The first stage focuses on fine-tuning for
code generation, while the second stage involves the joint training of models
for both code generation and critique. Our resulting finetuned Qwen2.5-Instruct
models achieve performance in code generation that either exceeds or equals the
best prior open-weight distilled models. Notably, the integration of our code
generation and critique models leads to significant improvements in competitive
coding performance. Furthermore, we present an extension of the LiveCodeBench
benchmark to specifically support the C++ programming language, thereby
facilitating more comprehensive LLM evaluation using this benchmark.