ChatPaper.aiChatPaper

Relatório de Contaminação de Dados da Tarefa Compartilhada CONDA de 2024

Data Contamination Report from the 2024 CONDA Shared Task

July 31, 2024
Autores: Oscar Sainz, Iker García-Ferrero, Alon Jacovi, Jon Ander Campos, Yanai Elazar, Eneko Agirre, Yoav Goldberg, Wei-Lin Chen, Jenny Chim, Leshem Choshen, Luca D'Amico-Wong, Melissa Dell, Run-Ze Fan, Shahriar Golchin, Yucheng Li, Pengfei Liu, Bhavish Pahwa, Ameya Prabhu, Suryansh Sharma, Emily Silcock, Kateryna Solonko, David Stap, Mihai Surdeanu, Yu-Min Tseng, Vishaal Udandarao, Zengzhi Wang, Ruijie Xu, Jinglin Yang
cs.AI

Resumo

O 1º Workshop sobre Contaminação de Dados (CONDA 2024) concentra-se em todos os aspectos relevantes da contaminação de dados no processamento de linguagem natural, onde a contaminação de dados é entendida como situações em que dados de avaliação estão incluídos em corpora de pré-treinamento usados para treinar modelos em larga escala, comprometendo os resultados de avaliação. O workshop promoveu uma tarefa compartilhada para coletar evidências sobre a contaminação de dados em conjuntos de dados e modelos disponíveis atualmente. O objetivo da tarefa compartilhada e do banco de dados associado é auxiliar a comunidade a compreender a extensão do problema e ajudar os pesquisadores a evitar relatar resultados de avaliação em recursos contaminados conhecidos. A tarefa compartilhada fornece um banco de dados público estruturado e centralizado para a coleta de evidências de contaminação, aberto a contribuições da comunidade por meio de solicitações no GitHub. Este primeiro artigo de compilação é baseado em 566 entradas relatadas sobre 91 fontes contaminadas de um total de 23 contribuidores. Os detalhes dos eventos individuais de contaminação estão disponíveis na plataforma. A plataforma continua online, aberta a contribuições da comunidade.
English
The 1st Workshop on Data Contamination (CONDA 2024) focuses on all relevant aspects of data contamination in natural language processing, where data contamination is understood as situations where evaluation data is included in pre-training corpora used to train large scale models, compromising evaluation results. The workshop fostered a shared task to collect evidence on data contamination in current available datasets and models. The goal of the shared task and associated database is to assist the community in understanding the extent of the problem and to assist researchers in avoiding reporting evaluation results on known contaminated resources. The shared task provides a structured, centralized public database for the collection of contamination evidence, open to contributions from the community via GitHub pool requests. This first compilation paper is based on 566 reported entries over 91 contaminated sources from a total of 23 contributors. The details of the individual contamination events are available in the platform. The platform continues to be online, open to contributions from the community.

Summary

AI-Generated Summary

PDF103November 28, 2024