ChatPaper.aiChatPaper

LeetCodeDataset: コードLLMの堅牢な評価と効率的な訓練のための時系列データセット

LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

April 20, 2025
著者: Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu
cs.AI

要旨

我々はLeetCodeDatasetを紹介する。これはコード生成モデルの評価と訓練のための高品質なベンチマークであり、LLM研究における2つの主要な課題、すなわち推論に焦点を当てたコーディングベンチマークの不足と自己完結型の訓練環境の欠如に対処するものである。LeetCodeのPython問題を豊富なメタデータ、広範なカバレッジ、問題ごとに100以上のテストケース、および時間的分割(2024年7月前後)を伴ってキュレーションすることで、我々のデータセットは汚染のない評価と効率的な教師ありファインチューニング(SFT)を可能にする。実験では、推論モデルが非推論モデルを大幅に上回る一方で、わずか2.6Kのモデル生成ソリューションを用いたSFTが110Kサンプルの同等モデルに匹敵する性能を達成することが示された。データセットと評価フレームワークはHugging FaceとGithubで公開されている。
English
We introduce LeetCodeDataset, a high-quality benchmark for evaluating and training code-generation models, addressing two key challenges in LLM research: the lack of reasoning-focused coding benchmarks and self-contained training testbeds. By curating LeetCode Python problems with rich metadata, broad coverage, 100+ test cases per problem, and temporal splits (pre/post July 2024), our dataset enables contamination-free evaluation and efficient supervised fine-tuning (SFT). Experiments show reasoning models significantly outperform non-reasoning counterparts, while SFT with only 2.6K model-generated solutions achieves performance comparable to 110K-sample counterparts. The dataset and evaluation framework are available on Hugging Face and Github.

Summary

AI-Generated Summary

PDF192April 22, 2025