Consentimento em Crise: O Rápido Declínio do Comum de Dados de IA
Consent in Crisis: The Rapid Decline of the AI Data Commons
July 20, 2024
Autores: Shayne Longpre, Robert Mahari, Ariel Lee, Campbell Lund, Hamidah Oderinwale, William Brannon, Nayan Saxena, Naana Obeng-Marnu, Tobin South, Cole Hunter, Kevin Klyman, Christopher Klamm, Hailey Schoelkopf, Nikhil Singh, Manuel Cherep, Ahmad Anis, An Dinh, Caroline Chitongo, Da Yin, Damien Sileo, Deividas Mataciunas, Diganta Misra, Emad Alghamdi, Enrico Shippole, Jianguo Zhang, Joanna Materzynska, Kun Qian, Kush Tiwary, Lester Miranda, Manan Dey, Minnie Liang, Mohammed Hamdy, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Shrestha Mohanty, Vipul Gupta, Vivek Sharma, Vu Minh Chien, Xuhui Zhou, Yizhi Li, Caiming Xiong, Luis Villa, Stella Biderman, Hanlin Li, Daphne Ippolito, Sara Hooker, Jad Kabbara, Sandy Pentland
cs.AI
Resumo
Sistemas de inteligência artificial (IA) de propósito geral são construídos com vastas quantidades de dados públicos da web, reunidos em corpora como C4, RefinedWeb e Dolma. Até onde sabemos, realizamos a primeira auditoria em larga escala e longitudinal dos protocolos de consentimento para os domínios web subjacentes aos corpora de treinamento de IA. Nossa auditoria de 14.000 domínios web fornece uma visão abrangente dos dados web rastreáveis e de como as preferências de consentimento para seu uso estão mudando ao longo do tempo. Observamos uma proliferação de cláusulas específicas de IA para limitar o uso, diferenças agudas nas restrições aos desenvolvedores de IA, bem como inconsistências gerais entre as intenções expressas nos Termos de Serviço dos sites e seus robots.txt. Diagnosticamos esses sintomas como resultado de protocolos web ineficazes, não projetados para lidar com o amplo reaproveitamento da internet para IA. Nossas análises longitudinais mostram que em um único ano (2023-2024) houve um rápido aumento nas restrições de dados de fontes web, tornando ~5%+ de todos os tokens em C4, ou 28%+ das fontes críticas mais ativamente mantidas em C4, totalmente restritas para uso. Para as restrições de rastreamento dos Termos de Serviço, agora 45% de C4 está restrito. Se respeitadas ou aplicadas, essas restrições estão rapidamente enviesando a diversidade, a atualidade e as leis de escalonamento para sistemas de IA de propósito geral. Esperamos ilustrar a crise emergente no consentimento de dados, fechando grande parte da web aberta, não apenas para IA comercial, mas também para IA não comercial e fins acadêmicos.
English
General-purpose artificial intelligence (AI) systems are built on massive
swathes of public web data, assembled into corpora such as C4, RefinedWeb, and
Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit
of the consent protocols for the web domains underlying AI training corpora.
Our audit of 14,000 web domains provides an expansive view of crawlable web
data and how consent preferences to use it are changing over time. We observe a
proliferation of AI-specific clauses to limit use, acute differences in
restrictions on AI developers, as well as general inconsistencies between
websites' expressed intentions in their Terms of Service and their robots.txt.
We diagnose these as symptoms of ineffective web protocols, not designed to
cope with the widespread re-purposing of the internet for AI. Our longitudinal
analyses show that in a single year (2023-2024) there has been a rapid
crescendo of data restrictions from web sources, rendering ~5%+ of all tokens
in C4, or 28%+ of the most actively maintained, critical sources in C4, fully
restricted from use. For Terms of Service crawling restrictions, a full 45% of
C4 is now restricted. If respected or enforced, these restrictions are rapidly
biasing the diversity, freshness, and scaling laws for general-purpose AI
systems. We hope to illustrate the emerging crisis in data consent, foreclosing
much of the open web, not only for commercial AI, but non-commercial AI and
academic purposes.