OpenCodeReasoning-II: Een eenvoudige aanpak voor schaling tijdens testen via zelfkritiek

Samenvatting

Recente vooruitgang in redeneringsgebaseerde Large Language Models (LLMs), met name hun potentieel door schaling tijdens testtijd, heeft aanzienlijke mogelijkheden gecreëerd voor distillatie in codegeneratie en -kritiek. Vooruitgang op beide gebieden is echter fundamenteel afhankelijk van grootschalige, hoogwaardige datasets. In dit werk introduceren we OpenCodeReasoning-II, een dataset die bestaat uit 2,5 miljoen vraag-oplossing-kritiek-triples (ongeveer 35.000 unieke programmeervragen), waardoor deze bijna twee keer zo groot is als de eerder grootste publiek beschikbare code-redeneringsdataset. In dit werk hanteren we een tweestapsstrategie voor supervised fine-tuning. De eerste stap richt zich op fine-tuning voor codegeneratie, terwijl de tweede stap gezamenlijke training van modellen voor zowel codegeneratie als kritiek omvat. Onze resulterende gefinetunde Qwen2.5-Instruct-modellen behalen prestaties in codegeneratie die de beste eerdere open-gewicht gedistilleerde modellen overtreffen of evenaren. Opmerkelijk is dat de integratie van onze codegeneratie- en kritiekmodellen leidt tot aanzienlijke verbeteringen in competitieve codeprestaties. Bovendien presenteren we een uitbreiding van de LiveCodeBench-benchmark om specifiek de programmeertaal C++ te ondersteunen, waardoor een uitgebreidere evaluatie van LLMs met behulp van deze benchmark mogelijk wordt.

English

Recent advancements in reasoning-based Large Language Models (LLMs), particularly their potential through test-time scaling, have created significant opportunities for distillation in code generation and critique. However, progress in both areas fundamentally depends on large-scale, high-quality datasets. In this work, we introduce OpenCodeReasoning-II, a dataset consists of 2.5M question-solution-critique triples (approx. 35K unique programming questions), making it nearly twice the size of the previous largest publicly available code reasoning dataset. In this work, we employ a two-stage supervised fine-tuning strategy. The first stage focuses on fine-tuning for code generation, while the second stage involves the joint training of models for both code generation and critique. Our resulting finetuned Qwen2.5-Instruct models achieve performance in code generation that either exceeds or equals the best prior open-weight distilled models. Notably, the integration of our code generation and critique models leads to significant improvements in competitive coding performance. Furthermore, we present an extension of the LiveCodeBench benchmark to specifically support the C++ programming language, thereby facilitating more comprehensive LLM evaluation using this benchmark.

OpenCodeReasoning-II: Een eenvoudige aanpak voor schaling tijdens testen via zelfkritiek

OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique

Samenvatting

Support