ChatPaper.aiChatPaper

LeetCodeDataset: Временной набор данных для надежной оценки и эффективного обучения языковых моделей для работы с кодом

LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

April 20, 2025
Авторы: Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu
cs.AI

Аннотация

Мы представляем LeetCodeDataset — высококачественный эталонный набор данных для оценки и обучения моделей генерации кода, который решает две ключевые проблемы в исследованиях больших языковых моделей (LLM): отсутствие бенчмарков, ориентированных на логическое программирование, и самодостаточных обучающих сред. Набор данных включает задачи LeetCode на Python с богатой метаинформацией, широким охватем, более чем 100 тестовыми случаями на задачу и временными разбиениями (до/после июля 2024 года), что позволяет проводить оценку без риска загрязнения данных и эффективное обучение с учителем (SFT). Эксперименты показывают, что модели, ориентированные на логическое мышление, значительно превосходят аналоги без такой ориентации, а SFT с использованием всего 2,6 тыс. сгенерированных моделью решений достигает производительности, сравнимой с использованием 110 тыс. образцов. Набор данных и фреймворк для оценки доступны на Hugging Face и Github.
English
We introduce LeetCodeDataset, a high-quality benchmark for evaluating and training code-generation models, addressing two key challenges in LLM research: the lack of reasoning-focused coding benchmarks and self-contained training testbeds. By curating LeetCode Python problems with rich metadata, broad coverage, 100+ test cases per problem, and temporal splits (pre/post July 2024), our dataset enables contamination-free evaluation and efficient supervised fine-tuning (SFT). Experiments show reasoning models significantly outperform non-reasoning counterparts, while SFT with only 2.6K model-generated solutions achieves performance comparable to 110K-sample counterparts. The dataset and evaluation framework are available on Hugging Face and Github.

Summary

AI-Generated Summary

PDF192April 22, 2025