Consentimento em Crise: O Rápido Declínio do Comum de Dados de IA

Resumo

Sistemas de inteligência artificial (IA) de propósito geral são construídos com vastas quantidades de dados públicos da web, reunidos em corpora como C4, RefinedWeb e Dolma. Até onde sabemos, realizamos a primeira auditoria em larga escala e longitudinal dos protocolos de consentimento para os domínios web subjacentes aos corpora de treinamento de IA. Nossa auditoria de 14.000 domínios web fornece uma visão abrangente dos dados web rastreáveis e de como as preferências de consentimento para seu uso estão mudando ao longo do tempo. Observamos uma proliferação de cláusulas específicas de IA para limitar o uso, diferenças agudas nas restrições aos desenvolvedores de IA, bem como inconsistências gerais entre as intenções expressas nos Termos de Serviço dos sites e seus robots.txt. Diagnosticamos esses sintomas como resultado de protocolos web ineficazes, não projetados para lidar com o amplo reaproveitamento da internet para IA. Nossas análises longitudinais mostram que em um único ano (2023-2024) houve um rápido aumento nas restrições de dados de fontes web, tornando ~5%+ de todos os tokens em C4, ou 28%+ das fontes críticas mais ativamente mantidas em C4, totalmente restritas para uso. Para as restrições de rastreamento dos Termos de Serviço, agora 45% de C4 está restrito. Se respeitadas ou aplicadas, essas restrições estão rapidamente enviesando a diversidade, a atualidade e as leis de escalonamento para sistemas de IA de propósito geral. Esperamos ilustrar a crise emergente no consentimento de dados, fechando grande parte da web aberta, não apenas para IA comercial, mas também para IA não comercial e fins acadêmicos.

English

General-purpose artificial intelligence (AI) systems are built on massive swathes of public web data, assembled into corpora such as C4, RefinedWeb, and Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit of the consent protocols for the web domains underlying AI training corpora. Our audit of 14,000 web domains provides an expansive view of crawlable web data and how consent preferences to use it are changing over time. We observe a proliferation of AI-specific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites' expressed intentions in their Terms of Service and their robots.txt. We diagnose these as symptoms of ineffective web protocols, not designed to cope with the widespread re-purposing of the internet for AI. Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use. For Terms of Service crawling restrictions, a full 45% of C4 is now restricted. If respected or enforced, these restrictions are rapidly biasing the diversity, freshness, and scaling laws for general-purpose AI systems. We hope to illustrate the emerging crisis in data consent, foreclosing much of the open web, not only for commercial AI, but non-commercial AI and academic purposes.

Consentimento em Crise: O Rápido Declínio do Comum de Dados de IA

Consent in Crisis: The Rapid Decline of the AI Data Commons

Resumo

Support