ChatPaper.aiChatPaper

Toestemming in Crisis: Het Snelle Verval van het AI-Datacommons

Consent in Crisis: The Rapid Decline of the AI Data Commons

July 20, 2024
Auteurs: Shayne Longpre, Robert Mahari, Ariel Lee, Campbell Lund, Hamidah Oderinwale, William Brannon, Nayan Saxena, Naana Obeng-Marnu, Tobin South, Cole Hunter, Kevin Klyman, Christopher Klamm, Hailey Schoelkopf, Nikhil Singh, Manuel Cherep, Ahmad Anis, An Dinh, Caroline Chitongo, Da Yin, Damien Sileo, Deividas Mataciunas, Diganta Misra, Emad Alghamdi, Enrico Shippole, Jianguo Zhang, Joanna Materzynska, Kun Qian, Kush Tiwary, Lester Miranda, Manan Dey, Minnie Liang, Mohammed Hamdy, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Shrestha Mohanty, Vipul Gupta, Vivek Sharma, Vu Minh Chien, Xuhui Zhou, Yizhi Li, Caiming Xiong, Luis Villa, Stella Biderman, Hanlin Li, Daphne Ippolito, Sara Hooker, Jad Kabbara, Sandy Pentland
cs.AI

Samenvatting

Algemene kunstmatige intelligentie (AI) systemen zijn gebouwd op enorme hoeveelheden publieke webdata, samengesteld in corpora zoals C4, RefinedWeb en Dolma. Voor zover wij weten, voeren wij de eerste grootschalige, longitudinale audit uit van de toestemmingsprotocollen voor de webdomeinen die ten grondslag liggen aan AI-trainingscorpora. Onze audit van 14.000 webdomeinen biedt een uitgebreid beeld van crawlbare webdata en hoe toestemmingsvoorkeuren voor het gebruik ervan in de loop van de tijd veranderen. We observeren een toename van AI-specifieke clausules om het gebruik te beperken, aanzienlijke verschillen in restricties voor AI-ontwikkelaars, evenals algemene inconsistenties tussen de uitgedrukte intenties in de Algemene Voorwaarden van websites en hun robots.txt. We diagnosticeren deze als symptomen van ineffectieve webprotocollen, die niet zijn ontworpen om om te gaan met de wijdverbreide herbestemming van het internet voor AI. Onze longitudinale analyses laten zien dat er in één jaar tijd (2023-2024) een snelle toename is geweest van datarestricties van webbronnen, waardoor ~5%+ van alle tokens in C4, of 28%+ van de meest actief onderhouden, kritieke bronnen in C4, volledig beperkt zijn voor gebruik. Voor restricties in de Algemene Voorwaarden met betrekking tot crawlen, is nu een volledige 45% van C4 beperkt. Indien gerespecteerd of gehandhaafd, leiden deze restricties snel tot een vertekening van de diversiteit, actualiteit en schaalwetten voor algemene AI-systemen. We hopen de opkomende crisis in datatoestemming te illustreren, die een groot deel van het open web afsluit, niet alleen voor commerciële AI, maar ook voor niet-commerciële AI en academische doeleinden.
English
General-purpose artificial intelligence (AI) systems are built on massive swathes of public web data, assembled into corpora such as C4, RefinedWeb, and Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit of the consent protocols for the web domains underlying AI training corpora. Our audit of 14,000 web domains provides an expansive view of crawlable web data and how consent preferences to use it are changing over time. We observe a proliferation of AI-specific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites' expressed intentions in their Terms of Service and their robots.txt. We diagnose these as symptoms of ineffective web protocols, not designed to cope with the widespread re-purposing of the internet for AI. Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use. For Terms of Service crawling restrictions, a full 45% of C4 is now restricted. If respected or enforced, these restrictions are rapidly biasing the diversity, freshness, and scaling laws for general-purpose AI systems. We hope to illustrate the emerging crisis in data consent, foreclosing much of the open web, not only for commercial AI, but non-commercial AI and academic purposes.
PDF143February 8, 2026