ChatPaper.aiChatPaper

Cerrando la brecha de procedencia de datos en texto, habla y video.

Bridging the Data Provenance Gap Across Text, Speech and Video

December 19, 2024
Autores: Shayne Longpre, Nikhil Singh, Manuel Cherep, Kushagra Tiwary, Joanna Materzynska, William Brannon, Robert Mahari, Manan Dey, Mohammed Hamdy, Nayan Saxena, Ahmad Mustafa Anis, Emad A. Alghamdi, Vu Minh Chien, Naana Obeng-Marnu, Da Yin, Kun Qian, Yizhi Li, Minnie Liang, An Dinh, Shrestha Mohanty, Deividas Mataciunas, Tobin South, Jianguo Zhang, Ariel N. Lee, Campbell S. Lund, Christopher Klamm, Damien Sileo, Diganta Misra, Enrico Shippole, Kevin Klyman, Lester JV Miranda, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Vipul Gupta, Vivek Sharma, Xuhui Zhou, Caiming Xiong, Luis Villa, Stella Biderman, Alex Pentland, Sara Hooker, Jad Kabbara
cs.AI

Resumen

El progreso en IA se impulsa en gran medida por la escala y calidad de los datos de entrenamiento. A pesar de esto, existe un déficit de análisis empíricos que examinen los atributos de conjuntos de datos bien establecidos más allá del texto. En este trabajo realizamos la auditoría longitudinal más grande y única en su tipo a través de distintas modalidades -textuales, de voz y de video- desde las tendencias detalladas de obtención y restricciones de uso hasta su representación geográfica y lingüística. Nuestro análisis manual abarca casi 4000 conjuntos de datos públicos entre 1990 y 2024, que abarcan 608 idiomas, 798 fuentes, 659 organizaciones y 67 países. Descubrimos que las aplicaciones de aprendizaje automático multimodal se han volcado abrumadoramente a plataformas web rastreadas, sintéticas y de redes sociales, como YouTube, para sus conjuntos de entrenamiento, eclipsando a todas las demás fuentes desde 2019. En segundo lugar, al rastrear la cadena de derivaciones de conjuntos de datos, encontramos que si bien menos del 33% de los conjuntos de datos tienen licencias restrictivas, más del 80% del contenido fuente en conjuntos de datos ampliamente utilizados de texto, voz y video, tienen restricciones no comerciales. Finalmente, a pesar del creciente número de idiomas y geografías representados en conjuntos de datos públicos de entrenamiento de IA, nuestra auditoría demuestra que las medidas de representación geográfica y multilingüe relativa no han logrado mejorar significativamente su cobertura desde 2013. Creemos que la amplitud de nuestra auditoría nos permite examinar empíricamente las tendencias en la obtención de datos, restricciones y la centralidad occidental a nivel de ecosistema, y que la visibilidad en torno a estas cuestiones es esencial para el progreso en una IA responsable. Como contribución a las mejoras en curso en transparencia de conjuntos de datos y uso responsable, publicamos toda nuestra auditoría multimodal, permitiendo a los profesionales rastrear la procedencia de datos a través de texto, voz y video.
English
Progress in AI is driven largely by the scale and quality of training data. Despite this, there is a deficit of empirical analysis examining the attributes of well-established datasets beyond text. In this work we conduct the largest and first-of-its-kind longitudinal audit across modalities--popular text, speech, and video datasets--from their detailed sourcing trends and use restrictions to their geographical and linguistic representation. Our manual analysis covers nearly 4000 public datasets between 1990-2024, spanning 608 languages, 798 sources, 659 organizations, and 67 countries. We find that multimodal machine learning applications have overwhelmingly turned to web-crawled, synthetic, and social media platforms, such as YouTube, for their training sets, eclipsing all other sources since 2019. Secondly, tracing the chain of dataset derivations we find that while less than 33% of datasets are restrictively licensed, over 80% of the source content in widely-used text, speech, and video datasets, carry non-commercial restrictions. Finally, counter to the rising number of languages and geographies represented in public AI training datasets, our audit demonstrates measures of relative geographical and multilingual representation have failed to significantly improve their coverage since 2013. We believe the breadth of our audit enables us to empirically examine trends in data sourcing, restrictions, and Western-centricity at an ecosystem-level, and that visibility into these questions are essential to progress in responsible AI. As a contribution to ongoing improvements in dataset transparency and responsible use, we release our entire multimodal audit, allowing practitioners to trace data provenance across text, speech, and video.

Summary

AI-Generated Summary

PDF92December 25, 2024