KodCode : Un ensemble de données synthétique diversifié, stimulant et vérifiable pour le codage

papers.abstract

Nous présentons KodCode, un ensemble de données synthétiques qui relève le défi persistant d'acquisition de données d'entraînement de haute qualité et vérifiables, couvrant divers niveaux de difficulté et domaines pour l'entraînement de modèles de langage dédiés au codage. Les ressources existantes axées sur le code échouent généralement à garantir soit l'étendue de la couverture (par exemple, allant de tâches de codage simples à des problèmes algorithmiques avancés), soit la vérifiabilité de la correction (par exemple, via des tests unitaires). En revanche, KodCode est composé de triplets question-solution-test systématiquement validés via une procédure d'auto-vérification. Notre pipeline commence par la synthèse d'une large gamme de questions de codage, puis génère des solutions et des cas de test, avec des tentatives supplémentaires allouées aux problèmes complexes. Enfin, une synthèse post-entraînement des données est effectuée en reformulant les questions dans divers formats et en générant des réponses via une procédure de rejet basée sur des tests à partir d'un modèle de raisonnement (DeepSeek R1). Ce pipeline produit un ensemble de données de codage à grande échelle, robuste et diversifié. KodCode est adapté pour le réglage fin supervisé, et les tests unitaires jumelés offrent également un grand potentiel pour le réglage par apprentissage par renforcement. Les expériences de réglage fin sur des benchmarks de codage (HumanEval(+), MBPP(+), BigCodeBench et LiveCodeBench) démontrent que les modèles ajustés avec KodCode atteignent des performances de pointe, surpassant des modèles tels que Qwen2.5-Coder-32B-Instruct et DeepSeek-R1-Distill-Llama-70B.

English

We introduce KodCode, a synthetic dataset that addresses the persistent challenge of acquiring high-quality, verifiable training data across diverse difficulties and domains for training Large Language Models for coding. Existing code-focused resources typically fail to ensure either the breadth of coverage (e.g., spanning simple coding tasks to advanced algorithmic problems) or verifiable correctness (e.g., unit tests). In contrast, KodCode comprises question-solution-test triplets that are systematically validated via a self-verification procedure. Our pipeline begins by synthesizing a broad range of coding questions, then generates solutions and test cases with additional attempts allocated to challenging problems. Finally, post-training data synthesis is done by rewriting questions into diverse formats and generating responses under a test-based reject sampling procedure from a reasoning model (DeepSeek R1). This pipeline yields a large-scale, robust and diverse coding dataset. KodCode is suitable for supervised fine-tuning and the paired unit tests also provide great potential for RL tuning. Fine-tuning experiments on coding benchmarks (HumanEval(+), MBPP(+), BigCodeBench, and LiveCodeBench) demonstrate that KodCode-tuned models achieve state-of-the-art performance, surpassing models like Qwen2.5-Coder-32B-Instruct and DeepSeek-R1-Distill-Llama-70B.

KodCode : Un ensemble de données synthétique diversifié, stimulant et vérifiable pour le codage

KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding

papers.abstract

Support