ChatPaper.aiChatPaper

LeetCodeDataset: 코드 LLM의 강건한 평가와 효율적 학습을 위한 시계열 데이터셋

LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

April 20, 2025
저자: Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu
cs.AI

초록

우리는 LeetCodeDataset을 소개하며, 이는 코드 생성 모델의 평가와 학습을 위한 고품질 벤치마크로, LLM 연구에서의 두 가지 주요 과제인 추론 중심 코딩 벤치마크의 부족과 자체 포함형 학습 테스트베드의 필요성을 해결합니다. LeetCode Python 문제를 풍부한 메타데이터, 광범위한 커버리지, 문제당 100개 이상의 테스트 케이스, 그리고 시간적 분할(2024년 7월 이전/이후)로 정제함으로써, 우리의 데이터셋은 오염 없는 평가와 효율적인 지도 미세 조정(SFT)을 가능하게 합니다. 실험 결과, 추론 모델이 비추론 모델을 크게 능가하는 것으로 나타났으며, 단 2.6K개의 모델 생성 솔루션으로 SFT를 수행했을 때 110K 샘플을 사용한 경우와 비슷한 성능을 달성했습니다. 이 데이터셋과 평가 프레임워크는 Hugging Face와 Github에서 이용 가능합니다.
English
We introduce LeetCodeDataset, a high-quality benchmark for evaluating and training code-generation models, addressing two key challenges in LLM research: the lack of reasoning-focused coding benchmarks and self-contained training testbeds. By curating LeetCode Python problems with rich metadata, broad coverage, 100+ test cases per problem, and temporal splits (pre/post July 2024), our dataset enables contamination-free evaluation and efficient supervised fine-tuning (SFT). Experiments show reasoning models significantly outperform non-reasoning counterparts, while SFT with only 2.6K model-generated solutions achieves performance comparable to 110K-sample counterparts. The dataset and evaluation framework are available on Hugging Face and Github.

Summary

AI-Generated Summary

PDF192April 22, 2025