LeetCodeDataset: Un Dataset Temporale per la Valutazione Robusta e l'Addestramento Efficiente di Modelli Linguistici per il Codice
LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs
April 20, 2025
Autori: Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu
cs.AI
Abstract
Presentiamo LeetCodeDataset, un benchmark di alta qualità per valutare e addestrare modelli di generazione di codice, affrontando due sfide chiave nella ricerca sui LLM: la mancanza di benchmark di codifica focalizzati sul ragionamento e di ambienti di addestramento autonomi. Curando problemi Python di LeetCode con metadati ricchi, ampia copertura, oltre 100 casi di test per problema e suddivisioni temporali (pre/post luglio 2024), il nostro dataset consente valutazioni prive di contaminazione e un efficiente fine-tuning supervisionato (SFT). Gli esperimenti mostrano che i modelli di ragionamento superano significativamente le controparti non orientate al ragionamento, mentre l'SFT con soli 2,6K soluzioni generate dal modello raggiunge prestazioni comparabili a quelle di controparti con 110K campioni. Il dataset e il framework di valutazione sono disponibili su Hugging Face e Github.
English
We introduce LeetCodeDataset, a high-quality benchmark for evaluating and
training code-generation models, addressing two key challenges in LLM research:
the lack of reasoning-focused coding benchmarks and self-contained training
testbeds. By curating LeetCode Python problems with rich metadata, broad
coverage, 100+ test cases per problem, and temporal splits (pre/post July
2024), our dataset enables contamination-free evaluation and efficient
supervised fine-tuning (SFT). Experiments show reasoning models significantly
outperform non-reasoning counterparts, while SFT with only 2.6K model-generated
solutions achieves performance comparable to 110K-sample counterparts. The
dataset and evaluation framework are available on Hugging Face and Github.Summary
AI-Generated Summary