ChatPaper.aiChatPaper

Informe de Contaminación de Datos de la Tarea Compartida CONDA 2024

Data Contamination Report from the 2024 CONDA Shared Task

July 31, 2024
Autores: Oscar Sainz, Iker García-Ferrero, Alon Jacovi, Jon Ander Campos, Yanai Elazar, Eneko Agirre, Yoav Goldberg, Wei-Lin Chen, Jenny Chim, Leshem Choshen, Luca D'Amico-Wong, Melissa Dell, Run-Ze Fan, Shahriar Golchin, Yucheng Li, Pengfei Liu, Bhavish Pahwa, Ameya Prabhu, Suryansh Sharma, Emily Silcock, Kateryna Solonko, David Stap, Mihai Surdeanu, Yu-Min Tseng, Vishaal Udandarao, Zengzhi Wang, Ruijie Xu, Jinglin Yang
cs.AI

Resumen

El 1er Taller sobre Contaminación de Datos (CONDA 2024) se centra en todos los aspectos relevantes de la contaminación de datos en el procesamiento del lenguaje natural, donde la contaminación de datos se entiende como situaciones en las que los datos de evaluación están incluidos en corpus de pre-entrenamiento utilizados para entrenar modelos a gran escala, comprometiendo los resultados de evaluación. El taller promovió una tarea compartida para recopilar evidencia sobre la contaminación de datos en conjuntos de datos y modelos actualmente disponibles. El objetivo de la tarea compartida y la base de datos asociada es asistir a la comunidad en comprender la magnitud del problema y ayudar a los investigadores a evitar informar resultados de evaluación en recursos conocidos como contaminados. La tarea compartida proporciona una base de datos pública estructurada y centralizada para la recopilación de evidencia de contaminación, abierta a contribuciones de la comunidad a través de solicitudes de extracción en GitHub. Este primer documento recopilatorio se basa en 566 entradas informadas sobre 91 fuentes contaminadas de un total de 23 colaboradores. Los detalles de los eventos individuales de contaminación están disponibles en la plataforma. La plataforma sigue en línea, abierta a contribuciones de la comunidad.
English
The 1st Workshop on Data Contamination (CONDA 2024) focuses on all relevant aspects of data contamination in natural language processing, where data contamination is understood as situations where evaluation data is included in pre-training corpora used to train large scale models, compromising evaluation results. The workshop fostered a shared task to collect evidence on data contamination in current available datasets and models. The goal of the shared task and associated database is to assist the community in understanding the extent of the problem and to assist researchers in avoiding reporting evaluation results on known contaminated resources. The shared task provides a structured, centralized public database for the collection of contamination evidence, open to contributions from the community via GitHub pool requests. This first compilation paper is based on 566 reported entries over 91 contaminated sources from a total of 23 contributors. The details of the individual contamination events are available in the platform. The platform continues to be online, open to contributions from the community.

Summary

AI-Generated Summary

PDF103November 28, 2024