LeetCodeDataset : Un ensemble de données temporel pour l'évaluation robuste et l'entraînement efficace des LLM de code
LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs
April 20, 2025
Auteurs: Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu
cs.AI
Résumé
Nous présentons LeetCodeDataset, un benchmark de haute qualité pour l'évaluation et l'entraînement de modèles de génération de code, répondant à deux défis majeurs dans la recherche sur les LLM : le manque de benchmarks de codage axés sur le raisonnement et de bancs d'essai d'entraînement autonomes. En sélectionnant des problèmes Python de LeetCode avec des métadonnées riches, une couverture étendue, plus de 100 cas de test par problème et des divisions temporelles (avant/après juillet 2024), notre dataset permet une évaluation sans contamination et un fine-tuning supervisé (SFT) efficace. Les expériences montrent que les modèles de raisonnement surpassent significativement leurs homologues non raisonnés, tandis que le SFT avec seulement 2,6K solutions générées par le modèle atteint des performances comparables à celles obtenues avec 110K échantillons. Le dataset et le cadre d'évaluation sont disponibles sur Hugging Face et Github.
English
We introduce LeetCodeDataset, a high-quality benchmark for evaluating and
training code-generation models, addressing two key challenges in LLM research:
the lack of reasoning-focused coding benchmarks and self-contained training
testbeds. By curating LeetCode Python problems with rich metadata, broad
coverage, 100+ test cases per problem, and temporal splits (pre/post July
2024), our dataset enables contamination-free evaluation and efficient
supervised fine-tuning (SFT). Experiments show reasoning models significantly
outperform non-reasoning counterparts, while SFT with only 2.6K model-generated
solutions achieves performance comparable to 110K-sample counterparts. The
dataset and evaluation framework are available on Hugging Face and Github.Summary
AI-Generated Summary