Sobre la Fuga de Conjuntos de Datos de Evaluación de Generación de Código
On Leakage of Code Generation Evaluation Datasets
July 10, 2024
Autores: Alexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé
cs.AI
Resumen
En este documento consideramos la contaminación por conjuntos de pruebas generados por código, en particular en su uso en modelos de lenguaje grandes modernos. Discutimos tres posibles fuentes de dicha contaminación y mostramos hallazgos que respaldan cada una de ellas: (i) fuga directa de datos, (ii) fuga indirecta de datos a través del uso de datos sintéticos y (iii) sobreajuste a conjuntos de evaluación durante la selección del modelo. Clave en nuestros hallazgos es un nuevo conjunto de datos de 161 indicaciones con sus soluciones de Python asociadas, conjunto de datos que se encuentra disponible en https://huggingface.co/datasets/CohereForAI/lbpp.
English
In this paper we consider contamination by code generation test sets, in
particular in their use in modern large language models. We discuss three
possible sources of such contamination and show findings supporting each of
them: (i) direct data leakage, (ii) indirect data leakage through the use of
synthetic data and (iii) overfitting to evaluation sets during model selection.
Key to our findings is a new dataset of 161 prompts with their associated
python solutions, dataset which is released at
https://huggingface.co/datasets/CohereForAI/lbpp .Summary
AI-Generated Summary