О Неполной защите данных в наборах данных для оценки генерации кода

Аннотация

В данной статье мы рассматриваем загрязнение тестовых наборов кодогенерации, в частности их использование в современных больших языковых моделях. Мы обсуждаем три возможных источника такого загрязнения и представляем результаты, подтверждающие каждый из них: (i) прямая утечка данных, (ii) косвенная утечка данных через использование синтетических данных и (iii) переобучение на наборах оценки во время выбора модели. Ключевым для наших результатов является новый набор данных из 161 подсказки с соответствующими им решениями на Python, набор данных, который доступен по ссылке https://huggingface.co/datasets/CohereForAI/lbpp.

English

In this paper we consider contamination by code generation test sets, in particular in their use in modern large language models. We discuss three possible sources of such contamination and show findings supporting each of them: (i) direct data leakage, (ii) indirect data leakage through the use of synthetic data and (iii) overfitting to evaluation sets during model selection. Key to our findings is a new dataset of 161 prompts with their associated python solutions, dataset which is released at https://huggingface.co/datasets/CohereForAI/lbpp .

О Неполной защите данных в наборах данных для оценки генерации кода

On Leakage of Code Generation Evaluation Datasets

Аннотация

Support