LeetCodeDataset : Un ensemble de données temporel pour l'évaluation robuste et l'entraînement efficace des LLM de code

papers.abstract

Nous présentons LeetCodeDataset, un benchmark de haute qualité pour l'évaluation et l'entraînement de modèles de génération de code, répondant à deux défis majeurs dans la recherche sur les LLM : le manque de benchmarks de codage axés sur le raisonnement et de bancs d'essai d'entraînement autonomes. En sélectionnant des problèmes Python de LeetCode avec des métadonnées riches, une couverture étendue, plus de 100 cas de test par problème et des divisions temporelles (avant/après juillet 2024), notre dataset permet une évaluation sans contamination et un fine-tuning supervisé (SFT) efficace. Les expériences montrent que les modèles de raisonnement surpassent significativement leurs homologues non raisonnés, tandis que le SFT avec seulement 2,6K solutions générées par le modèle atteint des performances comparables à celles obtenues avec 110K échantillons. Le dataset et le cadre d'évaluation sont disponibles sur Hugging Face et Github.

English

We introduce LeetCodeDataset, a high-quality benchmark for evaluating and training code-generation models, addressing two key challenges in LLM research: the lack of reasoning-focused coding benchmarks and self-contained training testbeds. By curating LeetCode Python problems with rich metadata, broad coverage, 100+ test cases per problem, and temporal splits (pre/post July 2024), our dataset enables contamination-free evaluation and efficient supervised fine-tuning (SFT). Experiments show reasoning models significantly outperform non-reasoning counterparts, while SFT with only 2.6K model-generated solutions achieves performance comparable to 110K-sample counterparts. The dataset and evaluation framework are available on Hugging Face and Github.

LeetCodeDataset : Un ensemble de données temporel pour l'évaluation robuste et l'entraînement efficace des LLM de code

LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

papers.abstract

Support