ChatPaper.aiChatPaper

LeetCodeDataset: Ein temporaler Datensatz zur robusten Bewertung und effizienten Schulung von Code-LLMs

LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

April 20, 2025
Autoren: Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu
cs.AI

Zusammenfassung

Wir stellen LeetCodeDataset vor, einen hochwertigen Benchmark zur Bewertung und Schulung von Code-Generierungsmodellen, der zwei zentrale Herausforderungen in der LLM-Forschung adressiert: den Mangel an reasoning-fokussierten Coding-Benchmarks und eigenständigen Trainingsumgebungen. Durch die Kuratierung von LeetCode-Python-Problemen mit umfangreichen Metadaten, breiter Abdeckung, über 100 Testfällen pro Problem und zeitlichen Aufteilungen (vor/nach Juli 2024) ermöglicht unser Dataset eine kontaminationsfreie Bewertung und effizientes Supervised Fine-Tuning (SFT). Experimente zeigen, dass Reasoning-Modelle ihre nicht-reasoning-basierten Gegenstücke deutlich übertreffen, während SFT mit nur 2,6K modellgenerierten Lösungen eine Leistung erreicht, die mit 110K-Beispiel-Datensätzen vergleichbar ist. Das Dataset und das Bewertungsframework sind auf Hugging Face und Github verfügbar.
English
We introduce LeetCodeDataset, a high-quality benchmark for evaluating and training code-generation models, addressing two key challenges in LLM research: the lack of reasoning-focused coding benchmarks and self-contained training testbeds. By curating LeetCode Python problems with rich metadata, broad coverage, 100+ test cases per problem, and temporal splits (pre/post July 2024), our dataset enables contamination-free evaluation and efficient supervised fine-tuning (SFT). Experiments show reasoning models significantly outperform non-reasoning counterparts, while SFT with only 2.6K model-generated solutions achieves performance comparable to 110K-sample counterparts. The dataset and evaluation framework are available on Hugging Face and Github.

Summary

AI-Generated Summary

PDF192April 22, 2025