OpenCodeReasoning-II: Un Enfoque Simple de Escalado en Tiempo de Prueba mediante Autocrítica

Resumen

Los recientes avances en los modelos de lenguaje de gran escala (LLMs) basados en razonamiento, particularmente su potencial a través del escalamiento en tiempo de prueba, han creado oportunidades significativas para la destilación en la generación y crítica de código. Sin embargo, el progreso en ambas áreas depende fundamentalmente de conjuntos de datos a gran escala y de alta calidad. En este trabajo, presentamos OpenCodeReasoning-II, un conjunto de datos que consta de 2.5 millones de triples pregunta-solución-crítica (aproximadamente 35K preguntas de programación únicas), lo que lo convierte en casi el doble del tamaño del mayor conjunto de datos de razonamiento de código disponible públicamente anterior. En este trabajo, empleamos una estrategia de ajuste fino supervisado en dos etapas. La primera etapa se centra en el ajuste fino para la generación de código, mientras que la segunda etapa implica el entrenamiento conjunto de modelos tanto para la generación como para la crítica de código. Nuestros modelos Qwen2.5-Instruct ajustados logran un rendimiento en la generación de código que supera o iguala a los mejores modelos destilados de peso abierto previos. Notablemente, la integración de nuestros modelos de generación y crítica de código conduce a mejoras significativas en el rendimiento competitivo de programación. Además, presentamos una extensión del benchmark LiveCodeBench para apoyar específicamente el lenguaje de programación C++, facilitando así una evaluación más completa de los LLMs utilizando este benchmark.

English

Recent advancements in reasoning-based Large Language Models (LLMs), particularly their potential through test-time scaling, have created significant opportunities for distillation in code generation and critique. However, progress in both areas fundamentally depends on large-scale, high-quality datasets. In this work, we introduce OpenCodeReasoning-II, a dataset consists of 2.5M question-solution-critique triples (approx. 35K unique programming questions), making it nearly twice the size of the previous largest publicly available code reasoning dataset. In this work, we employ a two-stage supervised fine-tuning strategy. The first stage focuses on fine-tuning for code generation, while the second stage involves the joint training of models for both code generation and critique. Our resulting finetuned Qwen2.5-Instruct models achieve performance in code generation that either exceeds or equals the best prior open-weight distilled models. Notably, the integration of our code generation and critique models leads to significant improvements in competitive coding performance. Furthermore, we present an extension of the LiveCodeBench benchmark to specifically support the C++ programming language, thereby facilitating more comprehensive LLM evaluation using this benchmark.

OpenCodeReasoning-II: Un Enfoque Simple de Escalado en Tiempo de Prueba mediante Autocrítica

OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique

Resumen

Support