ChatPaper.aiChatPaper

Combler l'écart de provenance des données entre le texte, la parole et la vidéo

Bridging the Data Provenance Gap Across Text, Speech and Video

December 19, 2024
Auteurs: Shayne Longpre, Nikhil Singh, Manuel Cherep, Kushagra Tiwary, Joanna Materzynska, William Brannon, Robert Mahari, Manan Dey, Mohammed Hamdy, Nayan Saxena, Ahmad Mustafa Anis, Emad A. Alghamdi, Vu Minh Chien, Naana Obeng-Marnu, Da Yin, Kun Qian, Yizhi Li, Minnie Liang, An Dinh, Shrestha Mohanty, Deividas Mataciunas, Tobin South, Jianguo Zhang, Ariel N. Lee, Campbell S. Lund, Christopher Klamm, Damien Sileo, Diganta Misra, Enrico Shippole, Kevin Klyman, Lester JV Miranda, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Vipul Gupta, Vivek Sharma, Xuhui Zhou, Caiming Xiong, Luis Villa, Stella Biderman, Alex Pentland, Sara Hooker, Jad Kabbara
cs.AI

Résumé

Les progrès en IA sont largement stimulés par l'ampleur et la qualité des données d'entraînement. Malgré cela, il existe un déficit d'analyses empiriques examinant les attributs des ensembles de données bien établis au-delà du texte. Dans ce travail, nous menons le plus grand audit longitudinal de ce type à travers les modalités - texte, parole et vidéo - populaires, en examinant leurs tendances de collecte détaillées, leurs restrictions d'utilisation, ainsi que leur représentation géographique et linguistique. Notre analyse manuelle couvre près de 4000 ensembles de données publics entre 1990 et 2024, couvrant 608 langues, 798 sources, 659 organisations et 67 pays. Nous constatons que les applications d'apprentissage automatique multimodal se sont largement tournées vers des plateformes web-crawled, synthétiques et de médias sociaux, telles que YouTube, pour leurs ensembles d'entraînement, éclipsant toutes les autres sources depuis 2019. Deuxièmement, en suivant la chaîne des dérivations des ensembles de données, nous constatons que moins de 33 % des ensembles de données sont soumis à des licences restrictives, mais plus de 80 % du contenu source dans les ensembles de données texte, parole et vidéo largement utilisés, sont soumis à des restrictions non commerciales. Enfin, contrairement à l'augmentation du nombre de langues et de géographies représentées dans les ensembles de données d'entraînement en IA publics, notre audit démontre que les mesures de représentation géographique et multilingue relative n'ont pas significativement amélioré leur couverture depuis 2013. Nous pensons que l'étendue de notre audit nous permet d'examiner empiriquement les tendances en matière de collecte de données, de restrictions et de centrage occidental à un niveau d'écosystème, et que la visibilité sur ces questions est essentielle pour progresser dans une IA responsable. En tant que contribution aux améliorations continues en matière de transparence des ensembles de données et d'utilisation responsable, nous publions l'intégralité de notre audit multimodal, permettant aux praticiens de retracer la provenance des données à travers le texte, la parole et la vidéo.
English
Progress in AI is driven largely by the scale and quality of training data. Despite this, there is a deficit of empirical analysis examining the attributes of well-established datasets beyond text. In this work we conduct the largest and first-of-its-kind longitudinal audit across modalities--popular text, speech, and video datasets--from their detailed sourcing trends and use restrictions to their geographical and linguistic representation. Our manual analysis covers nearly 4000 public datasets between 1990-2024, spanning 608 languages, 798 sources, 659 organizations, and 67 countries. We find that multimodal machine learning applications have overwhelmingly turned to web-crawled, synthetic, and social media platforms, such as YouTube, for their training sets, eclipsing all other sources since 2019. Secondly, tracing the chain of dataset derivations we find that while less than 33% of datasets are restrictively licensed, over 80% of the source content in widely-used text, speech, and video datasets, carry non-commercial restrictions. Finally, counter to the rising number of languages and geographies represented in public AI training datasets, our audit demonstrates measures of relative geographical and multilingual representation have failed to significantly improve their coverage since 2013. We believe the breadth of our audit enables us to empirically examine trends in data sourcing, restrictions, and Western-centricity at an ecosystem-level, and that visibility into these questions are essential to progress in responsible AI. As a contribution to ongoing improvements in dataset transparency and responsible use, we release our entire multimodal audit, allowing practitioners to trace data provenance across text, speech, and video.

Summary

AI-Generated Summary

PDF92December 25, 2024