コード生成評価データセットの漏洩に関する考察
On Leakage of Code Generation Evaluation Datasets
July 10, 2024
著者: Alexandre Matton, Tom Sherborne, Dennis Aumiller, Elena Tommasone, Milad Alizadeh, Jingyi He, Raymond Ma, Maxime Voisin, Ellen Gilsenan-McMahon, Matthias Gallé
cs.AI
要旨
本論文では、コード生成テストセットの汚染、特に現代の大規模言語モデルにおけるその使用について考察する。我々は、そのような汚染の3つの可能性のある源について議論し、それぞれを支持する知見を示す:(i) 直接的なデータ漏洩、(ii) 合成データの使用を通じた間接的なデータ漏洩、(iii) モデル選択中の評価セットへの過剰適合。我々の知見の鍵となるのは、161のプロンプトとそれに関連するPythonソリューションからなる新しいデータセットであり、このデータセットはhttps://huggingface.co/datasets/CohereForAI/lbppで公開されている。
English
In this paper we consider contamination by code generation test sets, in
particular in their use in modern large language models. We discuss three
possible sources of such contamination and show findings supporting each of
them: (i) direct data leakage, (ii) indirect data leakage through the use of
synthetic data and (iii) overfitting to evaluation sets during model selection.
Key to our findings is a new dataset of 161 prompts with their associated
python solutions, dataset which is released at
https://huggingface.co/datasets/CohereForAI/lbpp .Summary
AI-Generated Summary