ChatPaper.aiChatPaper

Over het Lekken van Evaluatiedatasets voor Codegeneratie

On Leakage of Code Generation Evaluation Datasets

July 10, 2024
Auteurs: Alexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé
cs.AI

Samenvatting

In dit artikel onderzoeken we de besmetting van testverzamelingen voor codegeneratie, met name in hun gebruik in moderne grote taalmodellen. We bespreken drie mogelijke bronnen van dergelijke besmetting en presenteren bevindingen die elk ervan ondersteunen: (i) directe datalekken, (ii) indirecte datalekken door het gebruik van synthetische data en (iii) overfitting aan evaluatieverzamelingen tijdens modelselectie. Centraal in onze bevindingen staat een nieuwe dataset van 161 prompts met hun bijbehorende Python-oplossingen, een dataset die beschikbaar is gesteld op https://huggingface.co/datasets/CohereForAI/lbpp.
English
In this paper we consider contamination by code generation test sets, in particular in their use in modern large language models. We discuss three possible sources of such contamination and show findings supporting each of them: (i) direct data leakage, (ii) indirect data leakage through the use of synthetic data and (iii) overfitting to evaluation sets during model selection. Key to our findings is a new dataset of 161 prompts with their associated python solutions, dataset which is released at https://huggingface.co/datasets/CohereForAI/lbpp .
PDF63November 28, 2024