Informe de Contaminación de Datos de la Tarea Compartida CONDA 2024
Data Contamination Report from the 2024 CONDA Shared Task
July 31, 2024
Autores: Oscar Sainz, Iker García-Ferrero, Alon Jacovi, Jon Ander Campos, Yanai Elazar, Eneko Agirre, Yoav Goldberg, Wei-Lin Chen, Jenny Chim, Leshem Choshen, Luca D'Amico-Wong, Melissa Dell, Run-Ze Fan, Shahriar Golchin, Yucheng Li, Pengfei Liu, Bhavish Pahwa, Ameya Prabhu, Suryansh Sharma, Emily Silcock, Kateryna Solonko, David Stap, Mihai Surdeanu, Yu-Min Tseng, Vishaal Udandarao, Zengzhi Wang, Ruijie Xu, Jinglin Yang
cs.AI
Resumen
El 1er Taller sobre Contaminación de Datos (CONDA 2024) se centra en todos los aspectos relevantes de la contaminación de datos en el procesamiento del lenguaje natural, donde la contaminación de datos se entiende como situaciones en las que los datos de evaluación están incluidos en corpus de pre-entrenamiento utilizados para entrenar modelos a gran escala, comprometiendo los resultados de evaluación. El taller promovió una tarea compartida para recopilar evidencia sobre la contaminación de datos en conjuntos de datos y modelos actualmente disponibles. El objetivo de la tarea compartida y la base de datos asociada es asistir a la comunidad en comprender la magnitud del problema y ayudar a los investigadores a evitar informar resultados de evaluación en recursos conocidos como contaminados. La tarea compartida proporciona una base de datos pública estructurada y centralizada para la recopilación de evidencia de contaminación, abierta a contribuciones de la comunidad a través de solicitudes de extracción en GitHub. Este primer documento recopilatorio se basa en 566 entradas informadas sobre 91 fuentes contaminadas de un total de 23 colaboradores. Los detalles de los eventos individuales de contaminación están disponibles en la plataforma. La plataforma sigue en línea, abierta a contribuciones de la comunidad.
English
The 1st Workshop on Data Contamination (CONDA 2024) focuses on all relevant
aspects of data contamination in natural language processing, where data
contamination is understood as situations where evaluation data is included in
pre-training corpora used to train large scale models, compromising evaluation
results. The workshop fostered a shared task to collect evidence on data
contamination in current available datasets and models. The goal of the shared
task and associated database is to assist the community in understanding the
extent of the problem and to assist researchers in avoiding reporting
evaluation results on known contaminated resources. The shared task provides a
structured, centralized public database for the collection of contamination
evidence, open to contributions from the community via GitHub pool requests.
This first compilation paper is based on 566 reported entries over 91
contaminated sources from a total of 23 contributors. The details of the
individual contamination events are available in the platform. The platform
continues to be online, open to contributions from the community.Summary
AI-Generated Summary