OpenCodeReasoning-II: Uma Abordagem Simples de Escalonamento em Tempo de Teste via Autocrítica
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique
July 11, 2025
Autores: Wasi Uddin Ahmad, Somshubra Majumdar, Aleksander Ficek, Sean Narenthiran, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Vahid Noroozi, Boris Ginsburg
cs.AI
Resumo
Os recentes avanços em modelos de linguagem de grande escala (LLMs) baseados em raciocínio, particularmente seu potencial por meio de escalonamento em tempo de teste, criaram oportunidades significativas para destilação em geração e crítica de código. No entanto, o progresso em ambas as áreas depende fundamentalmente de conjuntos de dados em larga escala e de alta qualidade. Neste trabalho, apresentamos o OpenCodeReasoning-II, um conjunto de dados que consiste em 2,5 milhões de triplas pergunta-solução-crítica (aproximadamente 35 mil questões de programação únicas), tornando-o quase duas vezes maior que o maior conjunto de dados de raciocínio de código publicamente disponível anteriormente. Neste trabalho, empregamos uma estratégia de ajuste fino supervisionado em duas etapas. A primeira etapa concentra-se no ajuste fino para geração de código, enquanto a segunda etapa envolve o treinamento conjunto de modelos para geração e crítica de código. Nossos modelos Qwen2.5-Instruct ajustados alcançam desempenho em geração de código que supera ou iguala os melhores modelos destilados de peso aberto anteriores. Notavelmente, a integração de nossos modelos de geração e crítica de código leva a melhorias significativas no desempenho competitivo de programação. Além disso, apresentamos uma extensão do benchmark LiveCodeBench para suportar especificamente a linguagem de programação C++, facilitando assim uma avaliação mais abrangente de LLMs usando esse benchmark.
English
Recent advancements in reasoning-based Large Language Models (LLMs),
particularly their potential through test-time scaling, have created
significant opportunities for distillation in code generation and critique.
However, progress in both areas fundamentally depends on large-scale,
high-quality datasets. In this work, we introduce OpenCodeReasoning-II, a
dataset consists of 2.5M question-solution-critique triples (approx. 35K unique
programming questions), making it nearly twice the size of the previous largest
publicly available code reasoning dataset. In this work, we employ a two-stage
supervised fine-tuning strategy. The first stage focuses on fine-tuning for
code generation, while the second stage involves the joint training of models
for both code generation and critique. Our resulting finetuned Qwen2.5-Instruct
models achieve performance in code generation that either exceeds or equals the
best prior open-weight distilled models. Notably, the integration of our code
generation and critique models leads to significant improvements in competitive
coding performance. Furthermore, we present an extension of the LiveCodeBench
benchmark to specifically support the C++ programming language, thereby
facilitating more comprehensive LLM evaluation using this benchmark.