危機に瀕する同意:AIデータコモンズの急速な衰退
Consent in Crisis: The Rapid Decline of the AI Data Commons
July 20, 2024
著者: Shayne Longpre, Robert Mahari, Ariel Lee, Campbell Lund, Hamidah Oderinwale, William Brannon, Nayan Saxena, Naana Obeng-Marnu, Tobin South, Cole Hunter, Kevin Klyman, Christopher Klamm, Hailey Schoelkopf, Nikhil Singh, Manuel Cherep, Ahmad Anis, An Dinh, Caroline Chitongo, Da Yin, Damien Sileo, Deividas Mataciunas, Diganta Misra, Emad Alghamdi, Enrico Shippole, Jianguo Zhang, Joanna Materzynska, Kun Qian, Kush Tiwary, Lester Miranda, Manan Dey, Minnie Liang, Mohammed Hamdy, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Shrestha Mohanty, Vipul Gupta, Vivek Sharma, Vu Minh Chien, Xuhui Zhou, Yizhi Li, Caiming Xiong, Luis Villa, Stella Biderman, Hanlin Li, Daphne Ippolito, Sara Hooker, Jad Kabbara, Sandy Pentland
cs.AI
要旨
汎用人工知能(AI)システムは、C4、RefinedWeb、Dolmaなどのコーパスに集約された大量の公開ウェブデータに基づいて構築されています。私たちの知る限り、AIトレーニングコーパスの基盤となるウェブドメインの同意プロトコルに関する初めての大規模な縦断的監査を実施しました。14,000のウェブドメインを対象としたこの監査は、クロール可能なウェブデータと、その使用に対する同意の選好が時間とともにどのように変化しているかを広範に示しています。AI開発者に対する制限の顕著な差異や、利用規約に記載された意図とrobots.txtとの間の一般的な不整合など、使用を制限するAI固有の条項の増加が観察されました。これらは、インターネットのAI向け再利用の広範な普及に対応するよう設計されていない、効果的でないウェブプロトコルの症状であると診断しました。縦断的分析によると、単一の年(2023-2024年)において、ウェブソースからのデータ制限が急速に高まり、C4の全トークンの約5%以上、またはC4の最も積極的に維持されている重要なソースの28%以上が完全に使用制限されています。利用規約によるクロール制限に関しては、C4の45%が現在制限されています。これらの制限が尊重または施行される場合、汎用AIシステムの多様性、新鮮さ、スケーリング則に急速にバイアスがかかっています。私たちは、商用AIだけでなく、非商用AIや学術目的のためのオープンウェブの多くを閉ざす、データ同意における新たな危機を明らかにしたいと考えています。
English
General-purpose artificial intelligence (AI) systems are built on massive
swathes of public web data, assembled into corpora such as C4, RefinedWeb, and
Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit
of the consent protocols for the web domains underlying AI training corpora.
Our audit of 14,000 web domains provides an expansive view of crawlable web
data and how consent preferences to use it are changing over time. We observe a
proliferation of AI-specific clauses to limit use, acute differences in
restrictions on AI developers, as well as general inconsistencies between
websites' expressed intentions in their Terms of Service and their robots.txt.
We diagnose these as symptoms of ineffective web protocols, not designed to
cope with the widespread re-purposing of the internet for AI. Our longitudinal
analyses show that in a single year (2023-2024) there has been a rapid
crescendo of data restrictions from web sources, rendering ~5%+ of all tokens
in C4, or 28%+ of the most actively maintained, critical sources in C4, fully
restricted from use. For Terms of Service crawling restrictions, a full 45% of
C4 is now restricted. If respected or enforced, these restrictions are rapidly
biasing the diversity, freshness, and scaling laws for general-purpose AI
systems. We hope to illustrate the emerging crisis in data consent, foreclosing
much of the open web, not only for commercial AI, but non-commercial AI and
academic purposes.Summary
AI-Generated Summary