ChatPaper.aiChatPaper

LeetCodeDataset: Um Conjunto de Dados Temporal para Avaliação Robustecida e Treinamento Eficiente de LLMs de Código

LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

April 20, 2025
Autores: Yunhui Xia, Wei Shen, Yan Wang, Jason Klein Liu, Huifeng Sun, Siyue Wu, Jian Hu, Xiaolong Xu
cs.AI

Resumo

Apresentamos o LeetCodeDataset, um benchmark de alta qualidade para avaliação e treinamento de modelos de geração de código, abordando dois desafios fundamentais na pesquisa de LLMs: a escassez de benchmarks de codificação focados em raciocínio e ambientes de treinamento autossuficientes. Ao curar problemas de Python do LeetCode com metadados ricos, ampla cobertura, mais de 100 casos de teste por problema e divisões temporais (antes/depois de julho de 2024), nosso conjunto de dados permite avaliação livre de contaminação e ajuste fino supervisionado (SFT) eficiente. Experimentos mostram que modelos de raciocínio superam significativamente suas contrapartes não orientadas a raciocínio, enquanto o SFT com apenas 2,6 mil soluções geradas pelo modelo alcança desempenho comparável a contrapartes com 110 mil amostras. O conjunto de dados e o framework de avaliação estão disponíveis no Hugging Face e no Github.
English
We introduce LeetCodeDataset, a high-quality benchmark for evaluating and training code-generation models, addressing two key challenges in LLM research: the lack of reasoning-focused coding benchmarks and self-contained training testbeds. By curating LeetCode Python problems with rich metadata, broad coverage, 100+ test cases per problem, and temporal splits (pre/post July 2024), our dataset enables contamination-free evaluation and efficient supervised fine-tuning (SFT). Experiments show reasoning models significantly outperform non-reasoning counterparts, while SFT with only 2.6K model-generated solutions achieves performance comparable to 110K-sample counterparts. The dataset and evaluation framework are available on Hugging Face and Github.

Summary

AI-Generated Summary

PDF192April 22, 2025