OpenCodeReasoning-II: Uma Abordagem Simples de Escalonamento em Tempo de Teste via Autocrítica

Resumo

Os recentes avanços em modelos de linguagem de grande escala (LLMs) baseados em raciocínio, particularmente seu potencial por meio de escalonamento em tempo de teste, criaram oportunidades significativas para destilação em geração e crítica de código. No entanto, o progresso em ambas as áreas depende fundamentalmente de conjuntos de dados em larga escala e de alta qualidade. Neste trabalho, apresentamos o OpenCodeReasoning-II, um conjunto de dados que consiste em 2,5 milhões de triplas pergunta-solução-crítica (aproximadamente 35 mil questões de programação únicas), tornando-o quase duas vezes maior que o maior conjunto de dados de raciocínio de código publicamente disponível anteriormente. Neste trabalho, empregamos uma estratégia de ajuste fino supervisionado em duas etapas. A primeira etapa concentra-se no ajuste fino para geração de código, enquanto a segunda etapa envolve o treinamento conjunto de modelos para geração e crítica de código. Nossos modelos Qwen2.5-Instruct ajustados alcançam desempenho em geração de código que supera ou iguala os melhores modelos destilados de peso aberto anteriores. Notavelmente, a integração de nossos modelos de geração e crítica de código leva a melhorias significativas no desempenho competitivo de programação. Além disso, apresentamos uma extensão do benchmark LiveCodeBench para suportar especificamente a linguagem de programação C++, facilitando assim uma avaliação mais abrangente de LLMs usando esse benchmark.

English

Recent advancements in reasoning-based Large Language Models (LLMs), particularly their potential through test-time scaling, have created significant opportunities for distillation in code generation and critique. However, progress in both areas fundamentally depends on large-scale, high-quality datasets. In this work, we introduce OpenCodeReasoning-II, a dataset consists of 2.5M question-solution-critique triples (approx. 35K unique programming questions), making it nearly twice the size of the previous largest publicly available code reasoning dataset. In this work, we employ a two-stage supervised fine-tuning strategy. The first stage focuses on fine-tuning for code generation, while the second stage involves the joint training of models for both code generation and critique. Our resulting finetuned Qwen2.5-Instruct models achieve performance in code generation that either exceeds or equals the best prior open-weight distilled models. Notably, the integration of our code generation and critique models leads to significant improvements in competitive coding performance. Furthermore, we present an extension of the LiveCodeBench benchmark to specifically support the C++ programming language, thereby facilitating more comprehensive LLM evaluation using this benchmark.

OpenCodeReasoning-II: Uma Abordagem Simples de Escalonamento em Tempo de Teste via Autocrítica

OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique

Resumo

Support