LeetCodeDataset: Un conjunto de datos temporal para la evaluación robusta y el entrenamiento eficiente de modelos de lenguaje de código (Code LLMs)

Resumen

Presentamos LeetCodeDataset, un punto de referencia de alta calidad para evaluar y entrenar modelos de generación de código, abordando dos desafíos clave en la investigación de LLM: la falta de benchmarks de codificación centrados en razonamiento y entornos de entrenamiento autónomos. Al curar problemas de Python de LeetCode con metadatos detallados, amplia cobertura, más de 100 casos de prueba por problema y divisiones temporales (antes/después de julio de 2024), nuestro conjunto de datos permite una evaluación libre de contaminación y un ajuste fino supervisado (SFT) eficiente. Los experimentos muestran que los modelos de razonamiento superan significativamente a sus contrapartes no basadas en razonamiento, mientras que el SFT con solo 2.6K soluciones generadas por el modelo logra un rendimiento comparable al de contrapartes con 110K muestras. El conjunto de datos y el marco de evaluación están disponibles en Hugging Face y Github.

English

We introduce LeetCodeDataset, a high-quality benchmark for evaluating and training code-generation models, addressing two key challenges in LLM research: the lack of reasoning-focused coding benchmarks and self-contained training testbeds. By curating LeetCode Python problems with rich metadata, broad coverage, 100+ test cases per problem, and temporal splits (pre/post July 2024), our dataset enables contamination-free evaluation and efficient supervised fine-tuning (SFT). Experiments show reasoning models significantly outperform non-reasoning counterparts, while SFT with only 2.6K model-generated solutions achieves performance comparable to 110K-sample counterparts. The dataset and evaluation framework are available on Hugging Face and Github.

LeetCodeDataset: Un conjunto de datos temporal para la evaluación robusta y el entrenamiento eficiente de modelos de lenguaje de código (Code LLMs)

LeetCodeDataset: A Temporal Dataset for Robust Evaluation and Efficient Training of Code LLMs

Resumen

Support