Zustimmung in der Krise: Der schnelle Rückgang des KI-Daten-Commons

Zusammenfassung

Allgemeine Künstliche Intelligenz (KI)-Systeme werden auf massiven Datensätzen aus öffentlichen Webdaten aufgebaut, die zu Korpora wie C4, RefinedWeb und Dolma zusammengefasst werden. Nach unserem Kenntnisstand führen wir die erste umfassende, groß angelegte, längsschnittliche Überprüfung der Einwilligungsprotokolle für die Webdomains durch, die den KI-Trainingskorpora zugrunde liegen. Unsere Überprüfung von 14.000 Webdomains bietet einen umfassenden Einblick in durchsuchbare Webdaten und wie sich die Einwilligungsvorlieben zur Nutzung im Laufe der Zeit ändern. Wir beobachten eine Verbreitung von KI-spezifischen Klauseln zur Beschränkung der Nutzung, akute Unterschiede bei den Einschränkungen für KI-Entwickler sowie allgemeine Inkonsistenzen zwischen den ausgedrückten Absichten der Websites in ihren Nutzungsbedingungen und ihrer robots.txt. Wir diagnostizieren diese als Symptome ineffektiver Webprotokolle, die nicht darauf ausgelegt sind, mit der weit verbreiteten Umnutzung des Internets für KI umzugehen. Unsere längsschnittlichen Analysen zeigen, dass es innerhalb eines Jahres (2023-2024) einen rapiden Anstieg der Datenbeschränkungen von Webquellen gegeben hat, wodurch ~5%+ aller Tokens in C4 oder 28%+ der am aktivsten gepflegten, kritischen Quellen in C4 vollständig eingeschränkt sind. Bei den Nutzungsbedingungen für das Crawlen sind nun volle 45% von C4 eingeschränkt. Wenn diese Beschränkungen respektiert oder durchgesetzt werden, beeinflussen sie schnell die Vielfalt, Aktualität und Skalierungsgesetze für allgemeine KI-Systeme. Wir möchten die aufkommende Krise bei der Datenzustimmung veranschaulichen, die einen Großteil des offenen Webs für kommerzielle KI, aber auch für nicht-kommerzielle KI und akademische Zwecke ausschließt.

English

General-purpose artificial intelligence (AI) systems are built on massive swathes of public web data, assembled into corpora such as C4, RefinedWeb, and Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit of the consent protocols for the web domains underlying AI training corpora. Our audit of 14,000 web domains provides an expansive view of crawlable web data and how consent preferences to use it are changing over time. We observe a proliferation of AI-specific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites' expressed intentions in their Terms of Service and their robots.txt. We diagnose these as symptoms of ineffective web protocols, not designed to cope with the widespread re-purposing of the internet for AI. Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use. For Terms of Service crawling restrictions, a full 45% of C4 is now restricted. If respected or enforced, these restrictions are rapidly biasing the diversity, freshness, and scaling laws for general-purpose AI systems. We hope to illustrate the emerging crisis in data consent, foreclosing much of the open web, not only for commercial AI, but non-commercial AI and academic purposes.