Over het Lekken van Evaluatiedatasets voor Codegeneratie
On Leakage of Code Generation Evaluation Datasets
July 10, 2024
Auteurs: Alexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé
cs.AI
Samenvatting
In dit artikel onderzoeken we de besmetting van testverzamelingen voor codegeneratie, met name in hun gebruik in moderne grote taalmodellen. We bespreken drie mogelijke bronnen van dergelijke besmetting en presenteren bevindingen die elk ervan ondersteunen: (i) directe datalekken, (ii) indirecte datalekken door het gebruik van synthetische data en (iii) overfitting aan evaluatieverzamelingen tijdens modelselectie.
Centraal in onze bevindingen staat een nieuwe dataset van 161 prompts met hun bijbehorende Python-oplossingen, een dataset die beschikbaar is gesteld op https://huggingface.co/datasets/CohereForAI/lbpp.
English
In this paper we consider contamination by code generation test sets, in
particular in their use in modern large language models. We discuss three
possible sources of such contamination and show findings supporting each of
them: (i) direct data leakage, (ii) indirect data leakage through the use of
synthetic data and (iii) overfitting to evaluation sets during model selection.
Key to our findings is a new dataset of 161 prompts with their associated
python solutions, dataset which is released at
https://huggingface.co/datasets/CohereForAI/lbpp .