ChatPaper.aiChatPaper

Het overbruggen van de gegevensherkomst kloof tussen tekst, spraak en video.

Bridging the Data Provenance Gap Across Text, Speech and Video

December 19, 2024
Auteurs: Shayne Longpre, Nikhil Singh, Manuel Cherep, Kushagra Tiwary, Joanna Materzynska, William Brannon, Robert Mahari, Manan Dey, Mohammed Hamdy, Nayan Saxena, Ahmad Mustafa Anis, Emad A. Alghamdi, Vu Minh Chien, Naana Obeng-Marnu, Da Yin, Kun Qian, Yizhi Li, Minnie Liang, An Dinh, Shrestha Mohanty, Deividas Mataciunas, Tobin South, Jianguo Zhang, Ariel N. Lee, Campbell S. Lund, Christopher Klamm, Damien Sileo, Diganta Misra, Enrico Shippole, Kevin Klyman, Lester JV Miranda, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Vipul Gupta, Vivek Sharma, Xuhui Zhou, Caiming Xiong, Luis Villa, Stella Biderman, Alex Pentland, Sara Hooker, Jad Kabbara
cs.AI

Samenvatting

Vooruitgang in AI wordt grotendeels gedreven door de omvang en kwaliteit van trainingsdata. Desondanks is er een tekort aan empirische analyse die de kenmerken van goed gevestigde datasets buiten tekst onderzoekt. In dit werk voeren we de grootste en eerste longitudinale audit uit over modaliteiten - populaire tekst, spraak en video datasets - van hun gedetailleerde bronnetrends en gebruik beperkingen tot hun geografische en taalkundige representatie. Onze handmatige analyse omvat bijna 4000 openbare datasets tussen 1990-2024, die 608 talen, 798 bronnen, 659 organisaties en 67 landen beslaan. We constateren dat multimodale machine learning toepassingen in grote mate zijn overgestapt naar web-gecrawld, synthetische en sociale mediaplatforms, zoals YouTube, voor hun trainingssets, waarbij ze alle andere bronnen overschaduwen sinds 2019. Ten tweede, door de keten van datasetafleidingen te traceren, vinden we dat terwijl minder dan 33% van de datasets restrictief gelicentieerd zijn, meer dan 80% van de broninhoud in veelgebruikte tekst-, spraak- en video datasets niet-commerciële beperkingen met zich meedragen. Tot slot, in tegenstelling tot het toenemende aantal talen en geografieën die vertegenwoordigd zijn in openbare AI-trainingsdatasets, toont onze audit aan dat maatregelen van relatieve geografische en meertalige representatie niet significant zijn verbeterd sinds 2013. Wij geloven dat de breedte van onze audit ons in staat stelt om trends in gegevensbronnen, beperkingen en Westerse gerichtheid op een ecosysteemniveau empirisch te onderzoeken, en dat inzicht in deze vragen essentieel is voor vooruitgang in verantwoorde AI. Als bijdrage aan lopende verbeteringen in datasettransparantie en verantwoord gebruik, publiceren we onze volledige multimodale audit, waardoor beoefenaars gegevensherkomst kunnen traceren over tekst, spraak en video.
English
Progress in AI is driven largely by the scale and quality of training data. Despite this, there is a deficit of empirical analysis examining the attributes of well-established datasets beyond text. In this work we conduct the largest and first-of-its-kind longitudinal audit across modalities--popular text, speech, and video datasets--from their detailed sourcing trends and use restrictions to their geographical and linguistic representation. Our manual analysis covers nearly 4000 public datasets between 1990-2024, spanning 608 languages, 798 sources, 659 organizations, and 67 countries. We find that multimodal machine learning applications have overwhelmingly turned to web-crawled, synthetic, and social media platforms, such as YouTube, for their training sets, eclipsing all other sources since 2019. Secondly, tracing the chain of dataset derivations we find that while less than 33% of datasets are restrictively licensed, over 80% of the source content in widely-used text, speech, and video datasets, carry non-commercial restrictions. Finally, counter to the rising number of languages and geographies represented in public AI training datasets, our audit demonstrates measures of relative geographical and multilingual representation have failed to significantly improve their coverage since 2013. We believe the breadth of our audit enables us to empirically examine trends in data sourcing, restrictions, and Western-centricity at an ecosystem-level, and that visibility into these questions are essential to progress in responsible AI. As a contribution to ongoing improvements in dataset transparency and responsible use, we release our entire multimodal audit, allowing practitioners to trace data provenance across text, speech, and video.
PDF102December 25, 2024