2024年CONDA共有タスクにおけるデータ汚染レポート
Data Contamination Report from the 2024 CONDA Shared Task
July 31, 2024
著者: Oscar Sainz, Iker García-Ferrero, Alon Jacovi, Jon Ander Campos, Yanai Elazar, Eneko Agirre, Yoav Goldberg, Wei-Lin Chen, Jenny Chim, Leshem Choshen, Luca D'Amico-Wong, Melissa Dell, Run-Ze Fan, Shahriar Golchin, Yucheng Li, Pengfei Liu, Bhavish Pahwa, Ameya Prabhu, Suryansh Sharma, Emily Silcock, Kateryna Solonko, David Stap, Mihai Surdeanu, Yu-Min Tseng, Vishaal Udandarao, Zengzhi Wang, Ruijie Xu, Jinglin Yang
cs.AI
要旨
第1回データ汚染ワークショップ(CONDA 2024)は、自然言語処理におけるデータ汚染のあらゆる関連側面に焦点を当てています。ここでデータ汚染とは、大規模モデルの学習に使用される事前学習コーパスに評価データが含まれる状況を指し、これにより評価結果が損なわれることを意味します。本ワークショップでは、現在利用可能なデータセットとモデルにおけるデータ汚染の証拠を収集するための共有タスクを推進しました。この共有タスクと関連データベースの目的は、コミュニティが問題の範囲を理解し、研究者が既知の汚染されたリソースでの評価結果を報告することを避けるのを支援することです。共有タスクは、GitHubのプールリクエストを通じてコミュニティからの貢献を受け付ける、構造化された中央集権的な公開データベースを提供します。この最初のコンパイル論文は、23名の貢献者から報告された91の汚染源にわたる566件のエントリーに基づいています。個々の汚染イベントの詳細はプラットフォームで閲覧可能です。プラットフォームは引き続きオンラインで、コミュニティからの貢献を受け付けています。
English
The 1st Workshop on Data Contamination (CONDA 2024) focuses on all relevant
aspects of data contamination in natural language processing, where data
contamination is understood as situations where evaluation data is included in
pre-training corpora used to train large scale models, compromising evaluation
results. The workshop fostered a shared task to collect evidence on data
contamination in current available datasets and models. The goal of the shared
task and associated database is to assist the community in understanding the
extent of the problem and to assist researchers in avoiding reporting
evaluation results on known contaminated resources. The shared task provides a
structured, centralized public database for the collection of contamination
evidence, open to contributions from the community via GitHub pool requests.
This first compilation paper is based on 566 reported entries over 91
contaminated sources from a total of 23 contributors. The details of the
individual contamination events are available in the platform. The platform
continues to be online, open to contributions from the community.Summary
AI-Generated Summary