코드 생성 평가 데이터셋의 유출 문제에 관하여
On Leakage of Code Generation Evaluation Datasets
July 10, 2024
저자: Alexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé
cs.AI
초록
본 논문에서는 코드 생성 테스트 세트의 오염 문제, 특히 현대의 대규모 언어 모델에서의 사용과 관련된 문제를 고려합니다. 우리는 이러한 오염의 세 가지 가능한 원인을 논의하고 각각을 뒷받침하는 연구 결과를 제시합니다: (i) 직접적인 데이터 유출, (ii) 합성 데이터 사용을 통한 간접적인 데이터 유출, 그리고 (iii) 모델 선택 과정에서 평가 세트에 대한 과적합. 우리의 연구 결과의 핵심은 161개의 프롬프트와 이에 해당하는 파이썬 솔루션으로 구성된 새로운 데이터셋이며, 이 데이터셋은 https://huggingface.co/datasets/CohereForAI/lbpp 에 공개되었습니다.
English
In this paper we consider contamination by code generation test sets, in
particular in their use in modern large language models. We discuss three
possible sources of such contamination and show findings supporting each of
them: (i) direct data leakage, (ii) indirect data leakage through the use of
synthetic data and (iii) overfitting to evaluation sets during model selection.
Key to our findings is a new dataset of 161 prompts with their associated
python solutions, dataset which is released at
https://huggingface.co/datasets/CohereForAI/lbpp .Summary
AI-Generated Summary