OpenCodeReasoning: Avanzando en la Destilación de Datos para la Programación Competitiva

Resumen

Desde el surgimiento de los modelos de lenguaje de gran escala basados en razonamiento, muchos han logrado un gran éxito al destilar capacidades de razonamiento en modelos estudiantiles. Dichas técnicas han reducido significativamente la brecha entre el razonamiento y los LLM estándar en tareas de codificación. A pesar de esto, gran parte del progreso en la destilación de modelos de razonamiento sigue estando limitado por conjuntos de datos propietarios o carece de detalles sobre la curación, filtrado y entrenamiento posterior de los datos. Para abordar esto, construimos un conjunto de datos superior de ajuste fino supervisado (SFT) que utilizamos para lograr resultados de capacidad de codificación de vanguardia en modelos de diversos tamaños. Nuestros modelos destilados utilizan únicamente SFT para alcanzar un 61.8% en LiveCodeBench y un 24.6% en CodeContests, superando a alternativas entrenadas con aprendizaje por refuerzo. Luego, realizamos un análisis sobre las fuentes de datos utilizadas para construir nuestro conjunto de datos, el impacto del filtrado por ejecución de código y la importancia de la diversidad de instrucciones/soluciones. Observamos que el filtrado por ejecución afectó negativamente la precisión en los benchmarks, lo que nos llevó a priorizar la diversidad de instrucciones sobre la corrección de las soluciones. Finalmente, también analizamos la eficiencia de tokens y los patrones de razonamiento utilizados por estos modelos. Pondremos a disposición de la comunidad estos conjuntos de datos y modelos destilados como código abierto.

English

Since the advent of reasoning-based large language models, many have found great success from distilling reasoning capabilities into student models. Such techniques have significantly bridged the gap between reasoning and standard LLMs on coding tasks. Despite this, much of the progress on distilling reasoning models remains locked behind proprietary datasets or lacks details on data curation, filtering and subsequent training. To address this, we construct a superior supervised fine-tuning (SFT) dataset that we use to achieve state-of-the-art coding capability results in models of various sizes. Our distilled models use only SFT to achieve 61.8% on LiveCodeBench and 24.6% on CodeContests, surpassing alternatives trained with reinforcement learning. We then perform analysis on the data sources used to construct our dataset, the impact of code execution filtering, and the importance of instruction/solution diversity. We observe that execution filtering negatively affected benchmark accuracy, leading us to prioritize instruction diversity over solution correctness. Finally, we also analyze the token efficiency and reasoning patterns utilized by these models. We will open-source these datasets and distilled models to the community.

OpenCodeReasoning: Avanzando en la Destilación de Datos para la Programación Competitiva

OpenCodeReasoning: Advancing Data Distillation for Competitive Coding

Resumen

Support