ChatPaper.aiChatPaper

2024 CONDA 공유 과제의 데이터 오염 보고서

Data Contamination Report from the 2024 CONDA Shared Task

July 31, 2024
저자: Oscar Sainz, Iker García-Ferrero, Alon Jacovi, Jon Ander Campos, Yanai Elazar, Eneko Agirre, Yoav Goldberg, Wei-Lin Chen, Jenny Chim, Leshem Choshen, Luca D'Amico-Wong, Melissa Dell, Run-Ze Fan, Shahriar Golchin, Yucheng Li, Pengfei Liu, Bhavish Pahwa, Ameya Prabhu, Suryansh Sharma, Emily Silcock, Kateryna Solonko, David Stap, Mihai Surdeanu, Yu-Min Tseng, Vishaal Udandarao, Zengzhi Wang, Ruijie Xu, Jinglin Yang
cs.AI

초록

제1회 데이터 오염 워크숍(CONDA 2024)은 자연어 처리에서의 데이터 오염과 관련된 모든 측면에 초점을 맞추고 있습니다. 여기서 데이터 오염은 평가 데이터가 대규모 모델을 훈련하는 데 사용된 사전 학습 코퍼스에 포함되어 평가 결과를 훼손하는 상황을 의미합니다. 이 워크숍은 현재 사용 가능한 데이터셋과 모델에서의 데이터 오염 증거를 수집하기 위한 공유 과제를 주최했습니다. 이 공유 과제와 관련 데이터베이스의 목표는 커뮤니티가 문제의 범위를 이해하고, 알려진 오염된 자원에 대한 평가 결과를 보고하지 않도록 연구자들을 지원하는 것입니다. 공유 과제는 GitHub 풀 리퀘스트를 통해 커뮤니티의 기여를 받아 구조화된 중앙 집중식 공개 데이터베이스를 제공합니다. 이 첫 번째 컴파일 논문은 총 23명의 기여자로부터 91개의 오염된 소스에 대해 보고된 566개의 항목을 기반으로 작성되었습니다. 개별 오염 사건의 세부 사항은 플랫폼에서 확인할 수 있습니다. 이 플랫폼은 커뮤니티의 기여를 받아 계속 운영 중입니다.
English
The 1st Workshop on Data Contamination (CONDA 2024) focuses on all relevant aspects of data contamination in natural language processing, where data contamination is understood as situations where evaluation data is included in pre-training corpora used to train large scale models, compromising evaluation results. The workshop fostered a shared task to collect evidence on data contamination in current available datasets and models. The goal of the shared task and associated database is to assist the community in understanding the extent of the problem and to assist researchers in avoiding reporting evaluation results on known contaminated resources. The shared task provides a structured, centralized public database for the collection of contamination evidence, open to contributions from the community via GitHub pool requests. This first compilation paper is based on 566 reported entries over 91 contaminated sources from a total of 23 contributors. The details of the individual contamination events are available in the platform. The platform continues to be online, open to contributions from the community.

Summary

AI-Generated Summary

PDF103November 28, 2024