Consenso in Crisi: Il Rapido Declino del Patrimonio Comune dei Dati per l'IA
Consent in Crisis: The Rapid Decline of the AI Data Commons
July 20, 2024
Autori: Shayne Longpre, Robert Mahari, Ariel Lee, Campbell Lund, Hamidah Oderinwale, William Brannon, Nayan Saxena, Naana Obeng-Marnu, Tobin South, Cole Hunter, Kevin Klyman, Christopher Klamm, Hailey Schoelkopf, Nikhil Singh, Manuel Cherep, Ahmad Anis, An Dinh, Caroline Chitongo, Da Yin, Damien Sileo, Deividas Mataciunas, Diganta Misra, Emad Alghamdi, Enrico Shippole, Jianguo Zhang, Joanna Materzynska, Kun Qian, Kush Tiwary, Lester Miranda, Manan Dey, Minnie Liang, Mohammed Hamdy, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Shrestha Mohanty, Vipul Gupta, Vivek Sharma, Vu Minh Chien, Xuhui Zhou, Yizhi Li, Caiming Xiong, Luis Villa, Stella Biderman, Hanlin Li, Daphne Ippolito, Sara Hooker, Jad Kabbara, Sandy Pentland
cs.AI
Abstract
I sistemi di intelligenza artificiale (AI) generica sono costruiti su vasti insiemi di dati pubblici del web, raccolti in corpora come C4, RefinedWeb e Dolma. Per quanto ne sappiamo, conduciamo la prima audit su larga scala e longitudinale dei protocolli di consenso per i domini web alla base dei corpora di addestramento AI. La nostra analisi di 14.000 domini web offre una visione ampia dei dati web accessibili e di come le preferenze di consenso per il loro utilizzo stiano cambiando nel tempo. Osserviamo una proliferazione di clausole specifiche per l'AI che limitano l'uso, differenze marcate nelle restrizioni per gli sviluppatori di AI, nonché incoerenze generali tra le intenzioni espresse nei Termini di Servizio dei siti web e i loro file robots.txt. Diagnosticiamo questi fenomeni come sintomi di protocolli web inefficaci, non progettati per gestire il riutilizzo diffuso di internet per l'AI. Le nostre analisi longitudinali mostrano che in un solo anno (2023-2024) c'è stato un rapido aumento delle restrizioni sui dati provenienti da fonti web, rendendo ~5%+ di tutti i token in C4, o il 28%+ delle fonti più attivamente mantenute e critiche in C4, completamente inaccessibili. Per quanto riguarda le restrizioni di crawling nei Termini di Servizio, il 45% di C4 è ora limitato. Se rispettate o applicate, queste restrizioni stanno rapidamente influenzando la diversità, l'aggiornamento e le leggi di scala per i sistemi di AI generica. Speriamo di illustrare la crisi emergente nel consenso sui dati, che sta chiudendo gran parte del web aperto, non solo per l'AI commerciale, ma anche per scopi non commerciali e accademici.
English
General-purpose artificial intelligence (AI) systems are built on massive
swathes of public web data, assembled into corpora such as C4, RefinedWeb, and
Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit
of the consent protocols for the web domains underlying AI training corpora.
Our audit of 14,000 web domains provides an expansive view of crawlable web
data and how consent preferences to use it are changing over time. We observe a
proliferation of AI-specific clauses to limit use, acute differences in
restrictions on AI developers, as well as general inconsistencies between
websites' expressed intentions in their Terms of Service and their robots.txt.
We diagnose these as symptoms of ineffective web protocols, not designed to
cope with the widespread re-purposing of the internet for AI. Our longitudinal
analyses show that in a single year (2023-2024) there has been a rapid
crescendo of data restrictions from web sources, rendering ~5%+ of all tokens
in C4, or 28%+ of the most actively maintained, critical sources in C4, fully
restricted from use. For Terms of Service crawling restrictions, a full 45% of
C4 is now restricted. If respected or enforced, these restrictions are rapidly
biasing the diversity, freshness, and scaling laws for general-purpose AI
systems. We hope to illustrate the emerging crisis in data consent, foreclosing
much of the open web, not only for commercial AI, but non-commercial AI and
academic purposes.