LeetCodeDataset: Ein temporaler Datensatz zur robusten Bewertung und effizienten Schulung von Code-LLMs

papers.abstract

Wir stellen LeetCodeDataset vor, einen hochwertigen Benchmark zur Bewertung und Schulung von Code-Generierungsmodellen, der zwei zentrale Herausforderungen in der LLM-Forschung adressiert: den Mangel an reasoning-fokussierten Coding-Benchmarks und eigenständigen Trainingsumgebungen. Durch die Kuratierung von LeetCode-Python-Problemen mit umfangreichen Metadaten, breiter Abdeckung, über 100 Testfällen pro Problem und zeitlichen Aufteilungen (vor/nach Juli 2024) ermöglicht unser Dataset eine kontaminationsfreie Bewertung und effizientes Supervised Fine-Tuning (SFT). Experimente zeigen, dass Reasoning-Modelle ihre nicht-reasoning-basierten Gegenstücke deutlich übertreffen, während SFT mit nur 2,6K modellgenerierten Lösungen eine Leistung erreicht, die mit 110K-Beispiel-Datensätzen vergleichbar ist. Das Dataset und das Bewertungsframework sind auf Hugging Face und Github verfügbar.

English

We introduce LeetCodeDataset, a high-quality benchmark for evaluating and training code-generation models, addressing two key challenges in LLM research: the lack of reasoning-focused coding benchmarks and self-contained training testbeds. By curating LeetCode Python problems with rich metadata, broad coverage, 100+ test cases per problem, and temporal splits (pre/post July 2024), our dataset enables contamination-free evaluation and efficient supervised fine-tuning (SFT). Experiments show reasoning models significantly outperform non-reasoning counterparts, while SFT with only 2.6K model-generated solutions achieves performance comparable to 110K-sample counterparts. The dataset and evaluation framework are available on Hugging Face and Github.

LeetCodeDataset: Ein temporaler Datensatz zur robusten Bewertung und effizienten Schulung von Code-LLMs

LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

papers.abstract

Support