OpenCodeReasoning: Avanzando en la Destilación de Datos para la Programación Competitiva
OpenCodeReasoning: Advancing Data Distillation for Competitive Coding
April 2, 2025
Autores: Wasi Uddin Ahmad, Sean Narenthiran, Somshubra Majumdar, Aleksander Ficek, Siddhartha Jain, Jocelyn Huang, Vahid Noroozi, Boris Ginsburg
cs.AI
Resumen
Desde el surgimiento de los modelos de lenguaje de gran escala basados en razonamiento, muchos han logrado un gran éxito al destilar capacidades de razonamiento en modelos estudiantiles. Dichas técnicas han reducido significativamente la brecha entre el razonamiento y los LLM estándar en tareas de codificación. A pesar de esto, gran parte del progreso en la destilación de modelos de razonamiento sigue estando limitado por conjuntos de datos propietarios o carece de detalles sobre la curación, filtrado y entrenamiento posterior de los datos. Para abordar esto, construimos un conjunto de datos superior de ajuste fino supervisado (SFT) que utilizamos para lograr resultados de capacidad de codificación de vanguardia en modelos de diversos tamaños. Nuestros modelos destilados utilizan únicamente SFT para alcanzar un 61.8% en LiveCodeBench y un 24.6% en CodeContests, superando a alternativas entrenadas con aprendizaje por refuerzo. Luego, realizamos un análisis sobre las fuentes de datos utilizadas para construir nuestro conjunto de datos, el impacto del filtrado por ejecución de código y la importancia de la diversidad de instrucciones/soluciones. Observamos que el filtrado por ejecución afectó negativamente la precisión en los benchmarks, lo que nos llevó a priorizar la diversidad de instrucciones sobre la corrección de las soluciones. Finalmente, también analizamos la eficiencia de tokens y los patrones de razonamiento utilizados por estos modelos. Pondremos a disposición de la comunidad estos conjuntos de datos y modelos destilados como código abierto.
English
Since the advent of reasoning-based large language models, many have found
great success from distilling reasoning capabilities into student models. Such
techniques have significantly bridged the gap between reasoning and standard
LLMs on coding tasks. Despite this, much of the progress on distilling
reasoning models remains locked behind proprietary datasets or lacks details on
data curation, filtering and subsequent training. To address this, we construct
a superior supervised fine-tuning (SFT) dataset that we use to achieve
state-of-the-art coding capability results in models of various sizes. Our
distilled models use only SFT to achieve 61.8% on LiveCodeBench and 24.6% on
CodeContests, surpassing alternatives trained with reinforcement learning. We
then perform analysis on the data sources used to construct our dataset, the
impact of code execution filtering, and the importance of instruction/solution
diversity. We observe that execution filtering negatively affected benchmark
accuracy, leading us to prioritize instruction diversity over solution
correctness. Finally, we also analyze the token efficiency and reasoning
patterns utilized by these models. We will open-source these datasets and
distilled models to the community.Summary
AI-Generated Summary