ChatPaper.aiChatPaper

Согласие в кризисе: Быстрое снижение общедоступных данных по искусственному интеллекту

Consent in Crisis: The Rapid Decline of the AI Data Commons

July 20, 2024
Авторы: Shayne Longpre, Robert Mahari, Ariel Lee, Campbell Lund, Hamidah Oderinwale, William Brannon, Nayan Saxena, Naana Obeng-Marnu, Tobin South, Cole Hunter, Kevin Klyman, Christopher Klamm, Hailey Schoelkopf, Nikhil Singh, Manuel Cherep, Ahmad Anis, An Dinh, Caroline Chitongo, Da Yin, Damien Sileo, Deividas Mataciunas, Diganta Misra, Emad Alghamdi, Enrico Shippole, Jianguo Zhang, Joanna Materzynska, Kun Qian, Kush Tiwary, Lester Miranda, Manan Dey, Minnie Liang, Mohammed Hamdy, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Shrestha Mohanty, Vipul Gupta, Vivek Sharma, Vu Minh Chien, Xuhui Zhou, Yizhi Li, Caiming Xiong, Luis Villa, Stella Biderman, Hanlin Li, Daphne Ippolito, Sara Hooker, Jad Kabbara, Sandy Pentland
cs.AI

Аннотация

Искусственные общие интеллектуальные системы (ИИ) строятся на огромных массивах общедоступных веб-данных, собранных в корпуса, такие как C4, RefinedWeb и Dolma. На наш взгляд, мы проводим первую крупномасштабную, продолжительную проверку протоколов согласия для веб-доменов, лежащих в основе корпусов обучения ИИ. Наша проверка 14 000 веб-доменов предоставляет обширное представление о доступных для сканирования веб-данных и о том, как меняются предпочтения согласия на их использование со временем. Мы наблюдаем распространение специфических для ИИ пунктов ограничений для использования, острые различия в ограничениях для разработчиков ИИ, а также общие несоответствия между выраженными намерениями веб-сайтов в их Условиях обслуживания и файле robots.txt. Мы диагностируем это как симптомы неэффективных веб-протоколов, не предназначенных для справления с широким переосмыслением интернета для ИИ. Наши продолжительные анализы показывают, что за один год (2023-2024) произошел быстрый нарастающий тренд ограничений данных из веб-источников, что привело к полному ограничению использования примерно 5%+ всех токенов в C4 или более 28% наиболее активно поддерживаемых, критически важных источников в C4. Для ограничений сканирования Условий обслуживания теперь полностью ограничено 45% C4. Если эти ограничения будут соблюдены или применены, они быстро нарушат разнообразие, актуальность и законы масштабирования для общих интеллектуальных систем. Мы надеемся проиллюстрировать возникающий кризис в согласии на данные, закрывающий доступ к значительной части открытого веба, не только для коммерческого ИИ, но и для некоммерческого ИИ и академических целей.
English
General-purpose artificial intelligence (AI) systems are built on massive swathes of public web data, assembled into corpora such as C4, RefinedWeb, and Dolma. To our knowledge, we conduct the first, large-scale, longitudinal audit of the consent protocols for the web domains underlying AI training corpora. Our audit of 14,000 web domains provides an expansive view of crawlable web data and how consent preferences to use it are changing over time. We observe a proliferation of AI-specific clauses to limit use, acute differences in restrictions on AI developers, as well as general inconsistencies between websites' expressed intentions in their Terms of Service and their robots.txt. We diagnose these as symptoms of ineffective web protocols, not designed to cope with the widespread re-purposing of the internet for AI. Our longitudinal analyses show that in a single year (2023-2024) there has been a rapid crescendo of data restrictions from web sources, rendering ~5%+ of all tokens in C4, or 28%+ of the most actively maintained, critical sources in C4, fully restricted from use. For Terms of Service crawling restrictions, a full 45% of C4 is now restricted. If respected or enforced, these restrictions are rapidly biasing the diversity, freshness, and scaling laws for general-purpose AI systems. We hope to illustrate the emerging crisis in data consent, foreclosing much of the open web, not only for commercial AI, but non-commercial AI and academic purposes.
PDF123November 28, 2024