OpenCodeReasoning-II : Une approche simple de mise à l'échelle au moment du test via l'auto-critique

papers.abstract

Les récents progrès des modèles de langage à grande échelle (LLMs) basés sur le raisonnement, en particulier leur potentiel grâce à la mise à l'échelle au moment des tests, ont créé des opportunités significatives pour la distillation dans la génération et la critique de code. Cependant, les avancées dans ces deux domaines dépendent fondamentalement de jeux de données à grande échelle et de haute qualité. Dans ce travail, nous présentons OpenCodeReasoning-II, un ensemble de données composé de 2,5 millions de triplets question-solution-critique (environ 35 000 questions de programmation uniques), ce qui en fait près de deux fois la taille du plus grand ensemble de données de raisonnement sur le code précédemment disponible publiquement. Dans ce travail, nous employons une stratégie de fine-tuning supervisé en deux étapes. La première étape se concentre sur le fine-tuning pour la génération de code, tandis que la deuxième étape implique l'entraînement conjoint de modèles pour la génération de code et la critique. Nos modèles Qwen2.5-Instruct finement ajustés atteignent des performances en génération de code qui dépassent ou égalent les meilleurs modèles distillés à poids ouvert précédents. Notamment, l'intégration de nos modèles de génération de code et de critique conduit à des améliorations significatives dans les performances de programmation compétitive. De plus, nous présentons une extension du benchmark LiveCodeBench pour supporter spécifiquement le langage de programmation C++, facilitant ainsi une évaluation plus complète des LLMs à l'aide de ce benchmark.

English

Recent advancements in reasoning-based Large Language Models (LLMs), particularly their potential through test-time scaling, have created significant opportunities for distillation in code generation and critique. However, progress in both areas fundamentally depends on large-scale, high-quality datasets. In this work, we introduce OpenCodeReasoning-II, a dataset consists of 2.5M question-solution-critique triples (approx. 35K unique programming questions), making it nearly twice the size of the previous largest publicly available code reasoning dataset. In this work, we employ a two-stage supervised fine-tuning strategy. The first stage focuses on fine-tuning for code generation, while the second stage involves the joint training of models for both code generation and critique. Our resulting finetuned Qwen2.5-Instruct models achieve performance in code generation that either exceeds or equals the best prior open-weight distilled models. Notably, the integration of our code generation and critique models leads to significant improvements in competitive coding performance. Furthermore, we present an extension of the LiveCodeBench benchmark to specifically support the C++ programming language, thereby facilitating more comprehensive LLM evaluation using this benchmark.

OpenCodeReasoning-II : Une approche simple de mise à l'échelle au moment du test via l'auto-critique

OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique

papers.abstract

Support