OpenCodeReasoning-II: Простой подход к масштабированию во время тестирования через самооценку
OpenCodeReasoning-II: A Simple Test Time Scaling Approach via Self-Critique
July 11, 2025
Авторы: Wasi Uddin Ahmad, Somshubra Majumdar, Aleksander Ficek, Sean Narenthiran, Mehrzad Samadi, Jocelyn Huang, Siddhartha Jain, Vahid Noroozi, Boris Ginsburg
cs.AI
Аннотация
Последние достижения в области крупных языковых моделей (LLM), основанных на рассуждениях, особенно их потенциал благодаря масштабированию во время тестирования, создали значительные возможности для дистилляции в генерации и критике кода. Однако прогресс в обеих областях фундаментально зависит от крупномасштабных, высококачественных наборов данных. В данной работе мы представляем OpenCodeReasoning-II — набор данных, состоящий из 2,5 миллионов троек "вопрос-решение-критика" (примерно 35 тысяч уникальных задач по программированию), что делает его почти в два раза больше, чем предыдущий крупнейший публично доступный набор данных для рассуждений о коде. В этой работе мы применяем двухэтапную стратегию контролируемого тонкого настройки. Первый этап сосредоточен на тонкой настройке для генерации кода, а второй этап включает совместное обучение моделей как для генерации, так и для критики кода. Наши итоговые модели Qwen2.5-Instruct, прошедшие тонкую настройку, демонстрируют производительность в генерации кода, которая либо превосходит, либо равна лучшим ранее доступным моделям с открытыми весами. Примечательно, что интеграция наших моделей генерации и критики кода приводит к значительному улучшению производительности в соревновательном программировании. Кроме того, мы представляем расширение бенчмарка LiveCodeBench для поддержки языка программирования C++, что способствует более всесторонней оценке LLM с использованием этого бенчмарка.
English
Recent advancements in reasoning-based Large Language Models (LLMs),
particularly their potential through test-time scaling, have created
significant opportunities for distillation in code generation and critique.
However, progress in both areas fundamentally depends on large-scale,
high-quality datasets. In this work, we introduce OpenCodeReasoning-II, a
dataset consists of 2.5M question-solution-critique triples (approx. 35K unique
programming questions), making it nearly twice the size of the previous largest
publicly available code reasoning dataset. In this work, we employ a two-stage
supervised fine-tuning strategy. The first stage focuses on fine-tuning for
code generation, while the second stage involves the joint training of models
for both code generation and critique. Our resulting finetuned Qwen2.5-Instruct
models achieve performance in code generation that either exceeds or equals the
best prior open-weight distilled models. Notably, the integration of our code
generation and critique models leads to significant improvements in competitive
coding performance. Furthermore, we present an extension of the LiveCodeBench
benchmark to specifically support the C++ programming language, thereby
facilitating more comprehensive LLM evaluation using this benchmark.