Überbrückung der Datenherkunftslücke zwischen Text, Sprache und Video
Bridging the Data Provenance Gap Across Text, Speech and Video
December 19, 2024
Autoren: Shayne Longpre, Nikhil Singh, Manuel Cherep, Kushagra Tiwary, Joanna Materzynska, William Brannon, Robert Mahari, Manan Dey, Mohammed Hamdy, Nayan Saxena, Ahmad Mustafa Anis, Emad A. Alghamdi, Vu Minh Chien, Naana Obeng-Marnu, Da Yin, Kun Qian, Yizhi Li, Minnie Liang, An Dinh, Shrestha Mohanty, Deividas Mataciunas, Tobin South, Jianguo Zhang, Ariel N. Lee, Campbell S. Lund, Christopher Klamm, Damien Sileo, Diganta Misra, Enrico Shippole, Kevin Klyman, Lester JV Miranda, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Vipul Gupta, Vivek Sharma, Xuhui Zhou, Caiming Xiong, Luis Villa, Stella Biderman, Alex Pentland, Sara Hooker, Jad Kabbara
cs.AI
Zusammenfassung
Der Fortschritt in der KI wird weitgehend durch den Umfang und die Qualität der Trainingsdaten vorangetrieben. Trotzdem besteht ein Mangel an empirischen Analysen, die die Merkmale etablierter Datensätze jenseits von Text untersuchen. In dieser Arbeit führen wir die größte und erstmalige longitudinale Überprüfung über Modalitäten hinweg durch - beliebte Text-, Sprach- und Videodatensätze - von ihren detaillierten Beschaffungstrends und Nutzungsbeschränkungen bis hin zu ihrer geografischen und sprachlichen Repräsentation. Unsere manuelle Analyse umfasst fast 4000 öffentliche Datensätze zwischen 1990 und 2024, die 608 Sprachen, 798 Quellen, 659 Organisationen und 67 Länder abdecken. Wir stellen fest, dass multimodale maschinelle Lernanwendungen überwiegend auf Web-Crawling, synthetische und soziale Medienplattformen wie YouTube für ihre Trainingsdaten zurückgegriffen haben und seit 2019 alle anderen Quellen übertreffen. Zweitens zeigen wir durch die Verfolgung der Kette von Datensatzableitungen, dass zwar weniger als 33% der Datensätze restriktiv lizenziert sind, über 80% der Quellinhalte in weit verbreiteten Text-, Sprach- und Videodatensätzen nicht-kommerzielle Beschränkungen aufweisen. Schließlich, entgegen der steigenden Anzahl von Sprachen und geografischen Regionen in öffentlichen KI-Trainingsdatensätzen, zeigt unsere Überprüfung, dass Maßnahmen zur relativen geografischen und mehrsprachigen Repräsentation seit 2013 nicht signifikant verbessert wurden. Wir glauben, dass die Breite unserer Überprüfung es uns ermöglicht, Trends bei der Datenerfassung, Beschränkungen und der westlichen Zentrierung auf Ökosystemebene empirisch zu untersuchen, und dass Einblicke in diese Fragen für den Fortschritt in der verantwortungsbewussten KI unerlässlich sind. Als Beitrag zu laufenden Verbesserungen bei der Datentransparenz und dem verantwortungsbewussten Einsatz veröffentlichen wir unsere gesamte multimodale Überprüfung, um Praktikern zu ermöglichen, die Datenherkunft über Text, Sprache und Video zurückzuverfolgen.
English
Progress in AI is driven largely by the scale and quality of training data.
Despite this, there is a deficit of empirical analysis examining the attributes
of well-established datasets beyond text. In this work we conduct the largest
and first-of-its-kind longitudinal audit across modalities--popular text,
speech, and video datasets--from their detailed sourcing trends and use
restrictions to their geographical and linguistic representation. Our manual
analysis covers nearly 4000 public datasets between 1990-2024, spanning 608
languages, 798 sources, 659 organizations, and 67 countries. We find that
multimodal machine learning applications have overwhelmingly turned to
web-crawled, synthetic, and social media platforms, such as YouTube, for their
training sets, eclipsing all other sources since 2019. Secondly, tracing the
chain of dataset derivations we find that while less than 33% of datasets are
restrictively licensed, over 80% of the source content in widely-used text,
speech, and video datasets, carry non-commercial restrictions. Finally, counter
to the rising number of languages and geographies represented in public AI
training datasets, our audit demonstrates measures of relative geographical and
multilingual representation have failed to significantly improve their coverage
since 2013. We believe the breadth of our audit enables us to empirically
examine trends in data sourcing, restrictions, and Western-centricity at an
ecosystem-level, and that visibility into these questions are essential to
progress in responsible AI. As a contribution to ongoing improvements in
dataset transparency and responsible use, we release our entire multimodal
audit, allowing practitioners to trace data provenance across text, speech, and
video.Summary
AI-Generated Summary