Отчет о загрязнении данных от Совместной задачи CONDA 2024
Data Contamination Report from the 2024 CONDA Shared Task
July 31, 2024
Авторы: Oscar Sainz, Iker García-Ferrero, Alon Jacovi, Jon Ander Campos, Yanai Elazar, Eneko Agirre, Yoav Goldberg, Wei-Lin Chen, Jenny Chim, Leshem Choshen, Luca D'Amico-Wong, Melissa Dell, Run-Ze Fan, Shahriar Golchin, Yucheng Li, Pengfei Liu, Bhavish Pahwa, Ameya Prabhu, Suryansh Sharma, Emily Silcock, Kateryna Solonko, David Stap, Mihai Surdeanu, Yu-Min Tseng, Vishaal Udandarao, Zengzhi Wang, Ruijie Xu, Jinglin Yang
cs.AI
Аннотация
Первая конференция по загрязнению данных (CONDA 2024) фокусируется на всех соответствующих аспектах загрязнения данных в обработке естественного языка, где загрязнение данных понимается как ситуации, когда данные для оценки включены в корпуса предварительного обучения, используемые для обучения моделей крупного масштаба, что негативно сказывается на результатах оценки. На конференции было проведено совместное задание по сбору доказательств загрязнения данных в текущих доступных наборах данных и моделях. Цель совместного задания и связанной базы данных заключается в помощи сообществу в понимании масштаба проблемы и помощи исследователям в избегании публикации результатов оценки на известных загрязненных ресурсах. Совместное задание предоставляет структурированную, централизованную общедоступную базу данных для сбора доказательств загрязнения, открытую для вклада от сообщества через запросы на пул-запросы на GitHub. Этот первый сборочный документ основан на 566 сообщенных записях о 91 загрязненном источнике от общего числа 23 участников. Подробности отдельных случаев загрязнения доступны на платформе. Платформа продолжает быть доступной онлайн и открытой для вклада от сообщества.
English
The 1st Workshop on Data Contamination (CONDA 2024) focuses on all relevant
aspects of data contamination in natural language processing, where data
contamination is understood as situations where evaluation data is included in
pre-training corpora used to train large scale models, compromising evaluation
results. The workshop fostered a shared task to collect evidence on data
contamination in current available datasets and models. The goal of the shared
task and associated database is to assist the community in understanding the
extent of the problem and to assist researchers in avoiding reporting
evaluation results on known contaminated resources. The shared task provides a
structured, centralized public database for the collection of contamination
evidence, open to contributions from the community via GitHub pool requests.
This first compilation paper is based on 566 reported entries over 91
contaminated sources from a total of 23 contributors. The details of the
individual contamination events are available in the platform. The platform
continues to be online, open to contributions from the community.Summary
AI-Generated Summary