Consentimiento en Crisis: La Rápida Decadencia de los Comunes de Datos de IA
Consent in Crisis: The Rapid Decline of the AI Data Commons
July 20, 2024
Autores: Shayne Longpre, Robert Mahari, Ariel Lee, Campbell Lund, Hamidah Oderinwale, William Brannon, Nayan Saxena, Naana Obeng-Marnu, Tobin South, Cole Hunter, Kevin Klyman, Christopher Klamm, Hailey Schoelkopf, Nikhil Singh, Manuel Cherep, Ahmad Anis, An Dinh, Caroline Chitongo, Da Yin, Damien Sileo, Deividas Mataciunas, Diganta Misra, Emad Alghamdi, Enrico Shippole, Jianguo Zhang, Joanna Materzynska, Kun Qian, Kush Tiwary, Lester Miranda, Manan Dey, Minnie Liang, Mohammed Hamdy, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Shrestha Mohanty, Vipul Gupta, Vivek Sharma, Vu Minh Chien, Xuhui Zhou, Yizhi Li, Caiming Xiong, Luis Villa, Stella Biderman, Hanlin Li, Daphne Ippolito, Sara Hooker, Jad Kabbara, Sandy Pentland
cs.AI
Resumen
Los sistemas de inteligencia artificial (IA) de propósito general se construyen sobre vastas extensiones de datos web públicos, ensamblados en corpora como C4, RefinedWeb y Dolma. Hasta donde sabemos, realizamos la primera auditoría a gran escala y longitudinal de los protocolos de consentimiento para los dominios web subyacentes a los corpora de entrenamiento de IA. Nuestra auditoría de 14,000 dominios web proporciona una visión amplia de los datos web rastreables y cómo están evolucionando con el tiempo las preferencias de consentimiento para su uso. Observamos una proliferación de cláusulas específicas de IA para limitar su uso, diferencias agudas en las restricciones para los desarrolladores de IA, así como inconsistencias generales entre las intenciones expresadas en los Términos de Servicio de los sitios web y sus archivos robots.txt. Diagnosticamos estos como síntomas de protocolos web ineficaces, no diseñados para hacer frente al uso generalizado de internet para la IA. Nuestros análisis longitudinales muestran que en un solo año (2023-2024) ha habido un rápido aumento de las restricciones de datos de fuentes web, lo que hace que aproximadamente un 5%+ de todos los tokens en C4, o más del 28% de las fuentes críticas más activamente mantenidas en C4, estén completamente restringidos para su uso. En cuanto a las restricciones de rastreo de los Términos de Servicio, un total del 45% de C4 está ahora restringido. Si se respetan o se hacen cumplir, estas restricciones están sesgando rápidamente la diversidad, frescura y leyes de escalado para los sistemas de IA de propósito general. Esperamos ilustrar la crisis emergente en el consentimiento de datos, cerrando gran parte del internet abierto, no solo para la IA comercial, sino también para la IA no comercial y los propósitos académicos.
English
General-purpose artificial intelligence (AI) systems are built on massive
swathes of public web data, assembled into corpora such as C4, RefinedWeb, and
Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit
of the consent protocols for the web domains underlying AI training corpora.
Our audit of 14,000 web domains provides an expansive view of crawlable web
data and how consent preferences to use it are changing over time. We observe a
proliferation of AI-specific clauses to limit use, acute differences in
restrictions on AI developers, as well as general inconsistencies between
websites' expressed intentions in their Terms of Service and their robots.txt.
We diagnose these as symptoms of ineffective web protocols, not designed to
cope with the widespread re-purposing of the internet for AI. Our longitudinal
analyses show that in a single year (2023-2024) there has been a rapid
crescendo of data restrictions from web sources, rendering ~5%+ of all tokens
in C4, or 28%+ of the most actively maintained, critical sources in C4, fully
restricted from use. For Terms of Service crawling restrictions, a full 45% of
C4 is now restricted. If respected or enforced, these restrictions are rapidly
biasing the diversity, freshness, and scaling laws for general-purpose AI
systems. We hope to illustrate the emerging crisis in data consent, foreclosing
much of the open web, not only for commercial AI, but non-commercial AI and
academic purposes.Summary
AI-Generated Summary