KodCode: Een gevarieerde, uitdagende en verifieerbare synthetische dataset voor codering
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding
March 4, 2025
Auteurs: Zhangchen Xu, Yang Liu, Yueqin Yin, Mingyuan Zhou, Radha Poovendran
cs.AI
Samenvatting
We introduceren KodCode, een synthetische dataset die de hardnekkige uitdaging aanpakt van het verkrijgen van hoogwaardige, verifieerbare trainingsgegevens over diverse moeilijkheidsgraden en domeinen voor het trainen van Large Language Models voor codering. Bestaande codegerichte bronnen slagen er doorgaans niet in om zowel de breedte van dekking (bijvoorbeeld van eenvoudige codeertaken tot geavanceerde algoritmische problemen) als verifieerbare correctheid (bijvoorbeeld unittests) te waarborgen. In tegenstelling hiermee bestaat KodCode uit vraag-oplossing-test-tripletten die systematisch worden gevalideerd via een zelfverificatieprocedure. Onze pijplijn begint met het synthetiseren van een breed scala aan codeervragen, waarna oplossingen en testgevallen worden gegenereerd met extra pogingen voor uitdagende problemen. Ten slotte wordt post-training datasynthese uitgevoerd door vragen te herschrijven in diverse formaten en antwoorden te genereren via een testgebaseerde afkeuringssteekproefprocedure vanuit een redeneermodel (DeepSeek R1). Deze pijplijn resulteert in een grootschalige, robuuste en diverse coderingsdataset. KodCode is geschikt voor supervised fine-tuning en de gekoppelde unittests bieden ook groot potentieel voor RL-tuning. Fine-tuning experimenten op coderingsbenchmarks (HumanEval(+), MBPP(+), BigCodeBench en LiveCodeBench) tonen aan dat met KodCode afgestemde modellen state-of-the-art prestaties bereiken, waarbij modellen zoals Qwen2.5-Coder-32B-Instruct en DeepSeek-R1-Distill-Llama-70B worden overtroffen.
English
We introduce KodCode, a synthetic dataset that addresses the persistent
challenge of acquiring high-quality, verifiable training data across diverse
difficulties and domains for training Large Language Models for coding.
Existing code-focused resources typically fail to ensure either the breadth of
coverage (e.g., spanning simple coding tasks to advanced algorithmic problems)
or verifiable correctness (e.g., unit tests). In contrast, KodCode comprises
question-solution-test triplets that are systematically validated via a
self-verification procedure. Our pipeline begins by synthesizing a broad range
of coding questions, then generates solutions and test cases with additional
attempts allocated to challenging problems. Finally, post-training data
synthesis is done by rewriting questions into diverse formats and generating
responses under a test-based reject sampling procedure from a reasoning model
(DeepSeek R1). This pipeline yields a large-scale, robust and diverse coding
dataset. KodCode is suitable for supervised fine-tuning and the paired unit
tests also provide great potential for RL tuning. Fine-tuning experiments on
coding benchmarks (HumanEval(+), MBPP(+), BigCodeBench, and LiveCodeBench)
demonstrate that KodCode-tuned models achieve state-of-the-art performance,
surpassing models like Qwen2.5-Coder-32B-Instruct and
DeepSeek-R1-Distill-Llama-70B.