Sulla Fuga di Dati nei Dataset di Valutazione per la Generazione di Codice
On Leakage of Code Generation Evaluation Datasets
July 10, 2024
Autori: Alexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé
cs.AI
Abstract
In questo articolo consideriamo la contaminazione dei set di test per la generazione di codice, in particolare nel loro utilizzo nei moderni modelli linguistici di grandi dimensioni. Discutiamo tre possibili fonti di tale contaminazione e presentiamo risultati che supportano ciascuna di esse: (i) perdita diretta di dati, (ii) perdita indiretta di dati attraverso l'uso di dati sintetici e (iii) overfitting ai set di valutazione durante la selezione del modello.
Fondamentale per i nostri risultati è un nuovo dataset composto da 161 prompt con le relative soluzioni in Python, dataset che è stato rilasciato all'indirizzo https://huggingface.co/datasets/CohereForAI/lbpp.
English
In this paper we consider contamination by code generation test sets, in
particular in their use in modern large language models. We discuss three
possible sources of such contamination and show findings supporting each of
them: (i) direct data leakage, (ii) indirect data leakage through the use of
synthetic data and (iii) overfitting to evaluation sets during model selection.
Key to our findings is a new dataset of 161 prompts with their associated
python solutions, dataset which is released at
https://huggingface.co/datasets/CohereForAI/lbpp .