OpenCodeReasoning-II: Een eenvoudige aanpak voor schaling tijdens testen via zelfkritiek
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique
July 11, 2025
Auteurs: Wasi Uddin Ahmad, Somshubra Majumdar, Aleksander Ficek, Sean Narenthiran, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Vahid Noroozi, Boris Ginsburg
cs.AI
Samenvatting
Recente vooruitgang in redeneringsgebaseerde Large Language Models (LLMs), met name hun potentieel door schaling tijdens testtijd, heeft aanzienlijke mogelijkheden gecreëerd voor distillatie in codegeneratie en -kritiek. Vooruitgang op beide gebieden is echter fundamenteel afhankelijk van grootschalige, hoogwaardige datasets. In dit werk introduceren we OpenCodeReasoning-II, een dataset die bestaat uit 2,5 miljoen vraag-oplossing-kritiek-triples (ongeveer 35.000 unieke programmeervragen), waardoor deze bijna twee keer zo groot is als de eerder grootste publiek beschikbare code-redeneringsdataset. In dit werk hanteren we een tweestapsstrategie voor supervised fine-tuning. De eerste stap richt zich op fine-tuning voor codegeneratie, terwijl de tweede stap gezamenlijke training van modellen voor zowel codegeneratie als kritiek omvat. Onze resulterende gefinetunde Qwen2.5-Instruct-modellen behalen prestaties in codegeneratie die de beste eerdere open-gewicht gedistilleerde modellen overtreffen of evenaren. Opmerkelijk is dat de integratie van onze codegeneratie- en kritiekmodellen leidt tot aanzienlijke verbeteringen in competitieve codeprestaties. Bovendien presenteren we een uitbreiding van de LiveCodeBench-benchmark om specifiek de programmeertaal C++ te ondersteunen, waardoor een uitgebreidere evaluatie van LLMs met behulp van deze benchmark mogelijk wordt.
English
Recent advancements in reasoning-based Large Language Models (LLMs),
particularly their potential through test-time scaling, have created
significant opportunities for distillation in code generation and critique.
However, progress in both areas fundamentally depends on large-scale,
high-quality datasets. In this work, we introduce OpenCodeReasoning-II, a
dataset consists of 2.5M question-solution-critique triples (approx. 35K unique
programming questions), making it nearly twice the size of the previous largest
publicly available code reasoning dataset. In this work, we employ a two-stage
supervised fine-tuning strategy. The first stage focuses on fine-tuning for
code generation, while the second stage involves the joint training of models
for both code generation and critique. Our resulting finetuned Qwen2.5-Instruct
models achieve performance in code generation that either exceeds or equals the
best prior open-weight distilled models. Notably, the integration of our code
generation and critique models leads to significant improvements in competitive
coding performance. Furthermore, we present an extension of the LiveCodeBench
benchmark to specifically support the C++ programming language, thereby
facilitating more comprehensive LLM evaluation using this benchmark.