OpenCodeReasoning-II: Ein einfacher Ansatz zur Skalierung zur Testzeit durch Selbstkritik

papers.abstract

Jüngste Fortschritte bei Large Language Models (LLMs) mit Schwerpunkt auf logischem Denken, insbesondere ihr Potenzial durch Skalierung zur Testzeit, haben bedeutende Möglichkeiten für die Destillation in der Code-Generierung und -Kritik geschaffen. Der Fortschritt in beiden Bereichen hängt jedoch grundlegend von groß angelegten, hochwertigen Datensätzen ab. In dieser Arbeit stellen wir OpenCodeReasoning-II vor, einen Datensatz, der aus 2,5 Millionen Frage-Lösung-Kritik-Tripeln besteht (ca. 35.000 einzigartige Programmierfragen), was ihn fast doppelt so groß macht wie den bisher größten öffentlich verfügbaren Datensatz für Code-Reasoning. In dieser Arbeit verwenden wir eine zweistufige überwachte Feinabstimmungsstrategie. Die erste Stufe konzentriert sich auf die Feinabstimmung für die Code-Generierung, während die zweite Stufe das gemeinsame Training von Modellen für sowohl Code-Generierung als auch Kritik umfasst. Unsere daraus resultierenden feinabgestimmten Qwen2.5-Instruct-Modelle erreichen in der Code-Generierung eine Leistung, die die besten bisherigen offen gewichteten destillierten Modelle entweder übertrifft oder ihnen gleichkommt. Besonders hervorzuheben ist, dass die Integration unserer Code-Generierungs- und Kritikmodelle zu signifikanten Verbesserungen in der Leistung bei kompetitiver Programmierung führt. Darüber hinaus präsentieren wir eine Erweiterung des LiveCodeBench-Benchmarks, um speziell die Programmiersprache C++ zu unterstützen, wodurch eine umfassendere LLM-Evaluierung mit diesem Benchmark ermöglicht wird.

English

Recent advancements in reasoning-based Large Language Models (LLMs), particularly their potential through test-time scaling, have created significant opportunities for distillation in code generation and critique. However, progress in both areas fundamentally depends on large-scale, high-quality datasets. In this work, we introduce OpenCodeReasoning-II, a dataset consists of 2.5M question-solution-critique triples (approx. 35K unique programming questions), making it nearly twice the size of the previous largest publicly available code reasoning dataset. In this work, we employ a two-stage supervised fine-tuning strategy. The first stage focuses on fine-tuning for code generation, while the second stage involves the joint training of models for both code generation and critique. Our resulting finetuned Qwen2.5-Instruct models achieve performance in code generation that either exceeds or equals the best prior open-weight distilled models. Notably, the integration of our code generation and critique models leads to significant improvements in competitive coding performance. Furthermore, we present an extension of the LiveCodeBench benchmark to specifically support the C++ programming language, thereby facilitating more comprehensive LLM evaluation using this benchmark.

OpenCodeReasoning-II: Ein einfacher Ansatz zur Skalierung zur Testzeit durch Selbstkritik

OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique

papers.abstract

Support