OpenCodeReasoning-II: Un Approccio Semplice di Scalabilità al Momento del Test tramite Auto-Critica

Abstract

I recenti progressi nei modelli linguistici di grandi dimensioni (LLMs) basati sul ragionamento, in particolare il loro potenziale attraverso lo scaling al momento del test, hanno creato significative opportunità per la distillazione nella generazione e critica del codice. Tuttavia, i progressi in entrambi gli ambiti dipendono fondamentalmente da dataset su larga scala e di alta qualità. In questo lavoro, introduciamo OpenCodeReasoning-II, un dataset composto da 2,5 milioni di triplette domanda-soluzione-critica (circa 35K domande di programmazione uniche), rendendolo quasi il doppio rispetto al più grande dataset pubblico disponibile precedentemente per il ragionamento sul codice. In questo lavoro, adottiamo una strategia di fine-tuning supervisionato a due fasi. La prima fase si concentra sul fine-tuning per la generazione del codice, mentre la seconda fase prevede l'addestramento congiunto di modelli sia per la generazione che per la critica del codice. I nostri modelli Qwen2.5-Instruct sottoposti a fine-tuning raggiungono prestazioni nella generazione del codice che superano o equivalgono ai migliori modelli distillati open-weight precedenti. In particolare, l'integrazione dei nostri modelli di generazione e critica del codice porta a significativi miglioramenti nelle prestazioni di programmazione competitiva. Inoltre, presentiamo un'estensione del benchmark LiveCodeBench per supportare specificamente il linguaggio di programmazione C++, facilitando così una valutazione più completa degli LLM utilizzando questo benchmark.

English

Recent advancements in reasoning-based Large Language Models (LLMs), particularly their potential through test-time scaling, have created significant opportunities for distillation in code generation and critique. However, progress in both areas fundamentally depends on large-scale, high-quality datasets. In this work, we introduce OpenCodeReasoning-II, a dataset consists of 2.5M question-solution-critique triples (approx. 35K unique programming questions), making it nearly twice the size of the previous largest publicly available code reasoning dataset. In this work, we employ a two-stage supervised fine-tuning strategy. The first stage focuses on fine-tuning for code generation, while the second stage involves the joint training of models for both code generation and critique. Our resulting finetuned Qwen2.5-Instruct models achieve performance in code generation that either exceeds or equals the best prior open-weight distilled models. Notably, the integration of our code generation and critique models leads to significant improvements in competitive coding performance. Furthermore, we present an extension of the LiveCodeBench benchmark to specifically support the C++ programming language, thereby facilitating more comprehensive LLM evaluation using this benchmark.

OpenCodeReasoning-II: Un Approccio Semplice di Scalabilità al Momento del Test tramite Auto-Critica

OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique

Abstract

Support