Consenso in Crisi: Il Rapido Declino del Patrimonio Comune dei Dati per l'IA

Abstract

I sistemi di intelligenza artificiale (AI) generica sono costruiti su vasti insiemi di dati pubblici del web, raccolti in corpora come C4, RefinedWeb e Dolma. Per quanto ne sappiamo, conduciamo la prima audit su larga scala e longitudinale dei protocolli di consenso per i domini web alla base dei corpora di addestramento AI. La nostra analisi di 14.000 domini web offre una visione ampia dei dati web accessibili e di come le preferenze di consenso per il loro utilizzo stiano cambiando nel tempo. Osserviamo una proliferazione di clausole specifiche per l'AI che limitano l'uso, differenze marcate nelle restrizioni per gli sviluppatori di AI, nonché incoerenze generali tra le intenzioni espresse nei Termini di Servizio dei siti web e i loro file robots.txt. Diagnosticiamo questi fenomeni come sintomi di protocolli web inefficaci, non progettati per gestire il riutilizzo diffuso di internet per l'AI. Le nostre analisi longitudinali mostrano che in un solo anno (2023-2024) c'è stato un rapido aumento delle restrizioni sui dati provenienti da fonti web, rendendo ~5%+ di tutti i token in C4, o il 28%+ delle fonti più attivamente mantenute e critiche in C4, completamente inaccessibili. Per quanto riguarda le restrizioni di crawling nei Termini di Servizio, il 45% di C4 è ora limitato. Se rispettate o applicate, queste restrizioni stanno rapidamente influenzando la diversità, l'aggiornamento e le leggi di scala per i sistemi di AI generica. Speriamo di illustrare la crisi emergente nel consenso sui dati, che sta chiudendo gran parte del web aperto, non solo per l'AI commerciale, ma anche per scopi non commerciali e accademici.

English

General-purpose artificial intelligence (AI) systems are built on massive swathes of public web data, assembled into corpora such as C4, RefinedWeb, and Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit of the consent protocols for the web domains underlying AI training corpora. Our audit of 14,000 web domains provides an expansive view of crawlable web data and how consent preferences to use it are changing over time. We observe a proliferation of AI-specific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites' expressed intentions in their Terms of Service and their robots.txt. We diagnose these as symptoms of ineffective web protocols, not designed to cope with the widespread re-purposing of the internet for AI. Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use. For Terms of Service crawling restrictions, a full 45% of C4 is now restricted. If respected or enforced, these restrictions are rapidly biasing the diversity, freshness, and scaling laws for general-purpose AI systems. We hope to illustrate the emerging crisis in data consent, foreclosing much of the open web, not only for commercial AI, but non-commercial AI and academic purposes.

Consenso in Crisi: Il Rapido Declino del Patrimonio Comune dei Dati per l'IA

Consent in Crisis: The Rapid Decline of the AI Data Commons

Abstract

Support