OpenCodeReasoning-II: Un Approccio Semplice di Scalabilità al Momento del Test tramite Auto-Critica
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique
July 11, 2025
Autori: Wasi Uddin Ahmad, Somshubra Majumdar, Aleksander Ficek, Sean Narenthiran, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Vahid Noroozi, Boris Ginsburg
cs.AI
Abstract
I recenti progressi nei modelli linguistici di grandi dimensioni (LLMs) basati sul ragionamento, in particolare il loro potenziale attraverso lo scaling al momento del test, hanno creato significative opportunità per la distillazione nella generazione e critica del codice. Tuttavia, i progressi in entrambi gli ambiti dipendono fondamentalmente da dataset su larga scala e di alta qualità. In questo lavoro, introduciamo OpenCodeReasoning-II, un dataset composto da 2,5 milioni di triplette domanda-soluzione-critica (circa 35K domande di programmazione uniche), rendendolo quasi il doppio rispetto al più grande dataset pubblico disponibile precedentemente per il ragionamento sul codice. In questo lavoro, adottiamo una strategia di fine-tuning supervisionato a due fasi. La prima fase si concentra sul fine-tuning per la generazione del codice, mentre la seconda fase prevede l'addestramento congiunto di modelli sia per la generazione che per la critica del codice. I nostri modelli Qwen2.5-Instruct sottoposti a fine-tuning raggiungono prestazioni nella generazione del codice che superano o equivalgono ai migliori modelli distillati open-weight precedenti. In particolare, l'integrazione dei nostri modelli di generazione e critica del codice porta a significativi miglioramenti nelle prestazioni di programmazione competitiva. Inoltre, presentiamo un'estensione del benchmark LiveCodeBench per supportare specificamente il linguaggio di programmazione C++, facilitando così una valutazione più completa degli LLM utilizzando questo benchmark.
English
Recent advancements in reasoning-based Large Language Models (LLMs),
particularly their potential through test-time scaling, have created
significant opportunities for distillation in code generation and critique.
However, progress in both areas fundamentally depends on large-scale,
high-quality datasets. In this work, we introduce OpenCodeReasoning-II, a
dataset consists of 2.5M question-solution-critique triples (approx. 35K unique
programming questions), making it nearly twice the size of the previous largest
publicly available code reasoning dataset. In this work, we employ a two-stage
supervised fine-tuning strategy. The first stage focuses on fine-tuning for
code generation, while the second stage involves the joint training of models
for both code generation and critique. Our resulting finetuned Qwen2.5-Instruct
models achieve performance in code generation that either exceeds or equals the
best prior open-weight distilled models. Notably, the integration of our code
generation and critique models leads to significant improvements in competitive
coding performance. Furthermore, we present an extension of the LiveCodeBench
benchmark to specifically support the C++ programming language, thereby
facilitating more comprehensive LLM evaluation using this benchmark.