KodCode: Un Dataset Sintetico Diversificato, Sfidante e Verificabile per la Programmazione

Abstract

Presentiamo KodCode, un dataset sintetico che affronta la persistente sfida di acquisire dati di addestramento di alta qualità e verificabili su diverse difficoltà e domini per l'addestramento di Large Language Models per la programmazione. Le risorse esistenti focalizzate sul codice tipicamente non garantiscono né l'ampiezza della copertura (ad esempio, spaziando da semplici compiti di codifica a problemi algoritmici avanzati) né la correttezza verificabile (ad esempio, test unitari). Al contrario, KodCode comprende triplette domanda-soluzione-test che vengono sistematicamente validate attraverso una procedura di auto-verifica. La nostra pipeline inizia sintetizzando un'ampia gamma di domande di programmazione, quindi genera soluzioni e casi di test con ulteriori tentativi dedicati ai problemi più complessi. Infine, la sintesi dei dati post-addestramento viene effettuata riscrivendo le domande in formati diversi e generando risposte attraverso una procedura di campionamento basata su test e rifiuto da un modello di ragionamento (DeepSeek R1). Questa pipeline produce un dataset di programmazione su larga scala, robusto e diversificato. KodCode è adatto per il fine-tuning supervisionato e i test unitari accoppiati offrono anche un grande potenziale per il tuning RL. Esperimenti di fine-tuning su benchmark di programmazione (HumanEval(+), MBPP(+), BigCodeBench e LiveCodeBench) dimostrano che i modelli ottimizzati con KodCode raggiungono prestazioni all'avanguardia, superando modelli come Qwen2.5-Coder-32B-Instruct e DeepSeek-R1-Distill-Llama-70B.

English

We introduce KodCode, a synthetic dataset that addresses the persistent challenge of acquiring high-quality, verifiable training data across diverse difficulties and domains for training Large Language Models for coding. Existing code-focused resources typically fail to ensure either the breadth of coverage (e.g., spanning simple coding tasks to advanced algorithmic problems) or verifiable correctness (e.g., unit tests). In contrast, KodCode comprises question-solution-test triplets that are systematically validated via a self-verification procedure. Our pipeline begins by synthesizing a broad range of coding questions, then generates solutions and test cases with additional attempts allocated to challenging problems. Finally, post-training data synthesis is done by rewriting questions into diverse formats and generating responses under a test-based reject sampling procedure from a reasoning model (DeepSeek R1). This pipeline yields a large-scale, robust and diverse coding dataset. KodCode is suitable for supervised fine-tuning and the paired unit tests also provide great potential for RL tuning. Fine-tuning experiments on coding benchmarks (HumanEval(+), MBPP(+), BigCodeBench, and LiveCodeBench) demonstrate that KodCode-tuned models achieve state-of-the-art performance, surpassing models like Qwen2.5-Coder-32B-Instruct and DeepSeek-R1-Distill-Llama-70B.

KodCode: Un Dataset Sintetico Diversificato, Sfidante e Verificabile per la Programmazione

KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding

Abstract

Support