Über das Durchsickern von Codegenerierungsbewertungsdatensätzen

papers.abstract

In diesem Paper betrachten wir die Kontamination durch Codegenerierungstestsets, insbesondere in ihrer Verwendung in modernen großen Sprachmodellen. Wir diskutieren drei mögliche Quellen einer solchen Kontamination und zeigen Ergebnisse, die jede von ihnen unterstützen: (i) direktes Datenleck, (ii) indirektes Datenleck durch die Verwendung synthetischer Daten und (iii) Überanpassung an Auswertungssätze während der Modellauswahl. Schlüssel zu unseren Ergebnissen ist ein neuer Datensatz von 161 Anregungen mit ihren zugehörigen Python-Lösungen, der unter https://huggingface.co/datasets/CohereForAI/lbpp veröffentlicht wird.

English

In this paper we consider contamination by code generation test sets, in particular in their use in modern large language models. We discuss three possible sources of such contamination and show findings supporting each of them: (i) direct data leakage, (ii) indirect data leakage through the use of synthetic data and (iii) overfitting to evaluation sets during model selection. Key to our findings is a new dataset of 161 prompts with their associated python solutions, dataset which is released at https://huggingface.co/datasets/CohereForAI/lbpp .

Über das Durchsickern von Codegenerierungsbewertungsdatensätzen

On Leakage of Code Generation Evaluation Datasets

papers.abstract

Support