OpenCodeReasoning: Avançando na Destilação de Dados para Programação Competitiva

Resumo

Desde o advento dos grandes modelos de linguagem baseados em raciocínio, muitos têm obtido grande sucesso ao destilar capacidades de raciocínio em modelos estudantis. Tais técnicas têm reduzido significativamente a lacuna entre o raciocínio e os LLMs padrão em tarefas de codificação. Apesar disso, grande parte do progresso na destilação de modelos de raciocínio permanece restrita a conjuntos de dados proprietários ou carece de detalhes sobre a curadoria, filtragem e treinamento subsequente dos dados. Para abordar isso, construímos um conjunto de dados de ajuste fino supervisionado (SFT) superior, que utilizamos para alcançar resultados de capacidade de codificação de última geração em modelos de vários tamanhos. Nossos modelos destilados usam apenas SFT para atingir 61,8% no LiveCodeBench e 24,6% no CodeContests, superando alternativas treinadas com aprendizado por reforço. Em seguida, realizamos uma análise sobre as fontes de dados usadas para construir nosso conjunto de dados, o impacto da filtragem por execução de código e a importância da diversidade de instruções/soluções. Observamos que a filtragem por execução afetou negativamente a precisão dos benchmarks, levando-nos a priorizar a diversidade de instruções em vez da correção das soluções. Por fim, também analisamos a eficiência de tokens e os padrões de raciocínio utilizados por esses modelos. Disponibilizaremos esses conjuntos de dados e modelos destilados como código aberto para a comunidade.

English

Since the advent of reasoning-based large language models, many have found great success from distilling reasoning capabilities into student models. Such techniques have significantly bridged the gap between reasoning and standard LLMs on coding tasks. Despite this, much of the progress on distilling reasoning models remains locked behind proprietary datasets or lacks details on data curation, filtering and subsequent training. To address this, we construct a superior supervised fine-tuning (SFT) dataset that we use to achieve state-of-the-art coding capability results in models of various sizes. Our distilled models use only SFT to achieve 61.8% on LiveCodeBench and 24.6% on CodeContests, surpassing alternatives trained with reinforcement learning. We then perform analysis on the data sources used to construct our dataset, the impact of code execution filtering, and the importance of instruction/solution diversity. We observe that execution filtering negatively affected benchmark accuracy, leading us to prioritize instruction diversity over solution correctness. Finally, we also analyze the token efficiency and reasoning patterns utilized by these models. We will open-source these datasets and distilled models to the community.

OpenCodeReasoning: Avançando na Destilação de Dados para Programação Competitiva

OpenCodeReasoning: Advancing Data Distillation for Competitive Coding

Resumo

Summary

Support

Support