Consentimiento en Crisis: La Rápida Decadencia de los Comunes de Datos de IA

Resumen

Los sistemas de inteligencia artificial (IA) de propósito general se construyen sobre vastas extensiones de datos web públicos, ensamblados en corpora como C4, RefinedWeb y Dolma. Hasta donde sabemos, realizamos la primera auditoría a gran escala y longitudinal de los protocolos de consentimiento para los dominios web subyacentes a los corpora de entrenamiento de IA. Nuestra auditoría de 14,000 dominios web proporciona una visión amplia de los datos web rastreables y cómo están evolucionando con el tiempo las preferencias de consentimiento para su uso. Observamos una proliferación de cláusulas específicas de IA para limitar su uso, diferencias agudas en las restricciones para los desarrolladores de IA, así como inconsistencias generales entre las intenciones expresadas en los Términos de Servicio de los sitios web y sus archivos robots.txt. Diagnosticamos estos como síntomas de protocolos web ineficaces, no diseñados para hacer frente al uso generalizado de internet para la IA. Nuestros análisis longitudinales muestran que en un solo año (2023-2024) ha habido un rápido aumento de las restricciones de datos de fuentes web, lo que hace que aproximadamente un 5%+ de todos los tokens en C4, o más del 28% de las fuentes críticas más activamente mantenidas en C4, estén completamente restringidos para su uso. En cuanto a las restricciones de rastreo de los Términos de Servicio, un total del 45% de C4 está ahora restringido. Si se respetan o se hacen cumplir, estas restricciones están sesgando rápidamente la diversidad, frescura y leyes de escalado para los sistemas de IA de propósito general. Esperamos ilustrar la crisis emergente en el consentimiento de datos, cerrando gran parte del internet abierto, no solo para la IA comercial, sino también para la IA no comercial y los propósitos académicos.

English

General-purpose artificial intelligence (AI) systems are built on massive swathes of public web data, assembled into corpora such as C4, RefinedWeb, and Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit of the consent protocols for the web domains underlying AI training corpora. Our audit of 14,000 web domains provides an expansive view of crawlable web data and how consent preferences to use it are changing over time. We observe a proliferation of AI-specific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites' expressed intentions in their Terms of Service and their robots.txt. We diagnose these as symptoms of ineffective web protocols, not designed to cope with the widespread re-purposing of the internet for AI. Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use. For Terms of Service crawling restrictions, a full 45% of C4 is now restricted. If respected or enforced, these restrictions are rapidly biasing the diversity, freshness, and scaling laws for general-purpose AI systems. We hope to illustrate the emerging crisis in data consent, foreclosing much of the open web, not only for commercial AI, but non-commercial AI and academic purposes.

Consentimiento en Crisis: La Rápida Decadencia de los Comunes de Datos de IA

Consent in Crisis: The Rapid Decline of the AI Data Commons

Resumen

Support