ChatPaper.aiChatPaper

Sur la fuite des ensembles de données d'évaluation pour la génération de code

On Leakage of Code Generation Evaluation Datasets

July 10, 2024
papers.authors: Alexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé
cs.AI

papers.abstract

Dans cet article, nous examinons la contamination des ensembles de test pour la génération de code, en particulier dans leur utilisation avec les modèles de langage modernes à grande échelle. Nous discutons trois sources possibles d'une telle contamination et présentons des résultats soutenant chacune d'elles : (i) la fuite directe de données, (ii) la fuite indirecte de données via l'utilisation de données synthétiques et (iii) le surapprentissage aux ensembles d'évaluation lors de la sélection des modèles. Au cœur de nos découvertes se trouve un nouvel ensemble de données composé de 161 prompts accompagnés de leurs solutions en Python, un ensemble de données publié à l'adresse suivante : https://huggingface.co/datasets/CohereForAI/lbpp.
English
In this paper we consider contamination by code generation test sets, in particular in their use in modern large language models. We discuss three possible sources of such contamination and show findings supporting each of them: (i) direct data leakage, (ii) indirect data leakage through the use of synthetic data and (iii) overfitting to evaluation sets during model selection. Key to our findings is a new dataset of 161 prompts with their associated python solutions, dataset which is released at https://huggingface.co/datasets/CohereForAI/lbpp .
PDF63November 28, 2024