LeetCodeDataset: Ein temporaler Datensatz zur robusten Bewertung und effizienten Schulung von Code-LLMs
LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs
April 20, 2025
Autoren: Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu
cs.AI
Zusammenfassung
Wir stellen LeetCodeDataset vor, einen hochwertigen Benchmark zur Bewertung und Schulung von Code-Generierungsmodellen, der zwei zentrale Herausforderungen in der LLM-Forschung adressiert: den Mangel an reasoning-fokussierten Coding-Benchmarks und eigenständigen Trainingsumgebungen. Durch die Kuratierung von LeetCode-Python-Problemen mit umfangreichen Metadaten, breiter Abdeckung, über 100 Testfällen pro Problem und zeitlichen Aufteilungen (vor/nach Juli 2024) ermöglicht unser Dataset eine kontaminationsfreie Bewertung und effizientes Supervised Fine-Tuning (SFT). Experimente zeigen, dass Reasoning-Modelle ihre nicht-reasoning-basierten Gegenstücke deutlich übertreffen, während SFT mit nur 2,6K modellgenerierten Lösungen eine Leistung erreicht, die mit 110K-Beispiel-Datensätzen vergleichbar ist. Das Dataset und das Bewertungsframework sind auf Hugging Face und Github verfügbar.
English
We introduce LeetCodeDataset, a high-quality benchmark for evaluating and
training code-generation models, addressing two key challenges in LLM research:
the lack of reasoning-focused coding benchmarks and self-contained training
testbeds. By curating LeetCode Python problems with rich metadata, broad
coverage, 100+ test cases per problem, and temporal splits (pre/post July
2024), our dataset enables contamination-free evaluation and efficient
supervised fine-tuning (SFT). Experiments show reasoning models significantly
outperform non-reasoning counterparts, while SFT with only 2.6K model-generated
solutions achieves performance comparable to 110K-sample counterparts. The
dataset and evaluation framework are available on Hugging Face and Github.Summary
AI-Generated Summary