Sobre Vazamento de Conjuntos de Dados de Avaliação de Geração de Código
On Leakage of Code Generation Evaluation Datasets
July 10, 2024
Autores: Alexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé
cs.AI
Resumo
Neste artigo, consideramos a contaminação por conjuntos de testes gerados por código, em particular em sua utilização em modelos de linguagem modernos de grande escala. Discutimos três possíveis fontes dessa contaminação e apresentamos descobertas que as apoiam: (i) vazamento direto de dados, (ii) vazamento indireto de dados por meio do uso de dados sintéticos e (iii) sobreajuste aos conjuntos de avaliação durante a seleção do modelo. A chave para nossas descobertas é um novo conjunto de dados de 161 prompts com suas soluções Python associadas, conjunto de dados que está disponível em https://huggingface.co/datasets/CohereForAI/lbpp.
English
In this paper we consider contamination by code generation test sets, in
particular in their use in modern large language models. We discuss three
possible sources of such contamination and show findings supporting each of
them: (i) direct data leakage, (ii) indirect data leakage through the use of
synthetic data and (iii) overfitting to evaluation sets during model selection.
Key to our findings is a new dataset of 161 prompts with their associated
python solutions, dataset which is released at
https://huggingface.co/datasets/CohereForAI/lbpp .