ChatPaper.aiChatPaper

Consentement en crise : Le déclin rapide du patrimoine commun des données pour l'IA

Consent in Crisis: The Rapid Decline of the AI Data Commons

July 20, 2024
Auteurs: Shayne Longpre, Robert Mahari, Ariel Lee, Campbell Lund, Hamidah Oderinwale, William Brannon, Nayan Saxena, Naana Obeng-Marnu, Tobin South, Cole Hunter, Kevin Klyman, Christopher Klamm, Hailey Schoelkopf, Nikhil Singh, Manuel Cherep, Ahmad Anis, An Dinh, Caroline Chitongo, Da Yin, Damien Sileo, Deividas Mataciunas, Diganta Misra, Emad Alghamdi, Enrico Shippole, Jianguo Zhang, Joanna Materzynska, Kun Qian, Kush Tiwary, Lester Miranda, Manan Dey, Minnie Liang, Mohammed Hamdy, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Shrestha Mohanty, Vipul Gupta, Vivek Sharma, Vu Minh Chien, Xuhui Zhou, Yizhi Li, Caiming Xiong, Luis Villa, Stella Biderman, Hanlin Li, Daphne Ippolito, Sara Hooker, Jad Kabbara, Sandy Pentland
cs.AI

Résumé

Les systèmes d'intelligence artificielle (IA) à usage général sont construits sur de vastes étendues de données web publiques, assemblées en corpus tels que C4, RefinedWeb et Dolma. À notre connaissance, nous menons le premier audit longitudinal à grande échelle des protocoles de consentement pour les domaines web sous-jacents aux corpus d'entraînement de l'IA. Notre audit de 14 000 domaines web offre une vue expansive des données web accessibles par crawl et de l'évolution des préférences de consentement pour leur utilisation au fil du temps. Nous observons une prolifération de clauses spécifiques à l'IA pour limiter l'utilisation, des différences marquées dans les restrictions imposées aux développeurs d'IA, ainsi que des incohérences générales entre les intentions exprimées par les sites web dans leurs Conditions d'utilisation et leurs fichiers robots.txt. Nous diagnostiquons ces symptômes comme résultant de protocoles web inefficaces, non conçus pour faire face à la réutilisation généralisée d'Internet pour l'IA. Nos analyses longitudinales montrent qu'en une seule année (2023-2024), il y a eu une augmentation rapide des restrictions de données provenant de sources web, rendant ~5 % ou plus de tous les tokens dans C4, ou 28 % ou plus des sources les plus activement maintenues et critiques dans C4, totalement inaccessibles. Pour les restrictions de crawl liées aux Conditions d'utilisation, 45 % de C4 est désormais restreint. Si ces restrictions sont respectées ou appliquées, elles biaisent rapidement la diversité, la fraîcheur et les lois d'échelle des systèmes d'IA à usage général. Nous espérons illustrer la crise émergente du consentement des données, qui ferme une grande partie du web ouvert, non seulement pour l'IA commerciale, mais aussi pour l'IA non commerciale et les usages académiques.
English
General-purpose artificial intelligence (AI) systems are built on massive swathes of public web data, assembled into corpora such as C4, RefinedWeb, and Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit of the consent protocols for the web domains underlying AI training corpora. Our audit of 14,000 web domains provides an expansive view of crawlable web data and how consent preferences to use it are changing over time. We observe a proliferation of AI-specific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites' expressed intentions in their Terms of Service and their robots.txt. We diagnose these as symptoms of ineffective web protocols, not designed to cope with the widespread re-purposing of the internet for AI. Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use. For Terms of Service crawling restrictions, a full 45% of C4 is now restricted. If respected or enforced, these restrictions are rapidly biasing the diversity, freshness, and scaling laws for general-purpose AI systems. We hope to illustrate the emerging crisis in data consent, foreclosing much of the open web, not only for commercial AI, but non-commercial AI and academic purposes.

Summary

AI-Generated Summary

PDF123November 28, 2024