Преодоление разрыва в истории данных между текстом, речью и видео.
Bridging the Data Provenance Gap Across Text, Speech and Video
December 19, 2024
Авторы: Shayne Longpre, Nikhil Singh, Manuel Cherep, Kushagra Tiwary, Joanna Materzynska, William Brannon, Robert Mahari, Manan Dey, Mohammed Hamdy, Nayan Saxena, Ahmad Mustafa Anis, Emad A. Alghamdi, Vu Minh Chien, Naana Obeng-Marnu, Da Yin, Kun Qian, Yizhi Li, Minnie Liang, An Dinh, Shrestha Mohanty, Deividas Mataciunas, Tobin South, Jianguo Zhang, Ariel N. Lee, Campbell S. Lund, Christopher Klamm, Damien Sileo, Diganta Misra, Enrico Shippole, Kevin Klyman, Lester JV Miranda, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Vipul Gupta, Vivek Sharma, Xuhui Zhou, Caiming Xiong, Luis Villa, Stella Biderman, Alex Pentland, Sara Hooker, Jad Kabbara
cs.AI
Аннотация
Прогресс в области искусственного интеллекта в значительной степени зависит от масштаба и качества обучающих данных. Тем не менее, существует дефицит эмпирического анализа, изучающего характеристики хорошо установленных наборов данных помимо текста. В данной работе мы проводим крупнейший и первого вида продольный аудит по модальностям - популярные текстовые, речевые и видео наборы данных - от их детальных тенденций источников и ограничений использования до их географического и языкового представления. Наше ручное исследование охватывает почти 4000 публичных наборов данных с 1990 по 2024 год, охватывая 608 языков, 798 источников, 659 организаций и 67 стран. Мы обнаружили, что мультимодальные приложения машинного обучения в основном обращаются к веб-сканированным, синтетическим и платформам социальных медиа, таким как YouTube, для своих обучающих наборов данных, вытесняя все другие источники с 2019 года. Во-вторых, проследив цепочку происхождения наборов данных, мы обнаружили, что хотя менее 33% наборов данных имеют ограниченную лицензию, более 80% контента источников в широко используемых текстовых, речевых и видео наборах данных несут ограничения на коммерческое использование. Наконец, вопреки растущему числу языков и географий, представленных в публичных наборах данных для обучения искусственного интеллекта, наш аудит показывает, что меры относительного географического и многоязычного представления не смогли значительно улучшить их охват с 2013 года. Мы считаем, что широта нашего аудита позволяет нам эмпирически изучить тенденции в источниках данных, ограничениях и западно-центричности на уровне экосистемы, и что прозрачность в отношении этих вопросов является необходимой для прогресса в области ответственного искусственного интеллекта. В качестве вклада в текущие улучшения прозрачности наборов данных и ответственного использования, мы публикуем весь наш мультимодальный аудит, позволяя практикующим отслеживать происхождение данных в тексте, речи и видео.
English
Progress in AI is driven largely by the scale and quality of training data.
Despite this, there is a deficit of empirical analysis examining the attributes
of well-established datasets beyond text. In this work we conduct the largest
and first-of-its-kind longitudinal audit across modalities--popular text,
speech, and video datasets--from their detailed sourcing trends and use
restrictions to their geographical and linguistic representation. Our manual
analysis covers nearly 4000 public datasets between 1990-2024, spanning 608
languages, 798 sources, 659 organizations, and 67 countries. We find that
multimodal machine learning applications have overwhelmingly turned to
web-crawled, synthetic, and social media platforms, such as YouTube, for their
training sets, eclipsing all other sources since 2019. Secondly, tracing the
chain of dataset derivations we find that while less than 33% of datasets are
restrictively licensed, over 80% of the source content in widely-used text,
speech, and video datasets, carry non-commercial restrictions. Finally, counter
to the rising number of languages and geographies represented in public AI
training datasets, our audit demonstrates measures of relative geographical and
multilingual representation have failed to significantly improve their coverage
since 2013. We believe the breadth of our audit enables us to empirically
examine trends in data sourcing, restrictions, and Western-centricity at an
ecosystem-level, and that visibility into these questions are essential to
progress in responsible AI. As a contribution to ongoing improvements in
dataset transparency and responsible use, we release our entire multimodal
audit, allowing practitioners to trace data provenance across text, speech, and
video.Summary
AI-Generated Summary