Создавать, собирать или генерировать? Разработка SEA-VL — мультикультурного визуально-языкового набора данных для Юго-Восточной АзииCrowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural
Vision-Language Dataset for Southeast Asia
Юго-Восточная Азия (ЮВА) — это регион с исключительным лингвистическим и культурным разнообразием, однако он остается значительно недооцененным в исследованиях, связанных с обработкой визуальной и языковой информации (VL). Это часто приводит к тому, что модели искусственного интеллекта (ИИ) не учитывают культурные особенности ЮВА. Чтобы восполнить этот пробел, мы представляем SEA-VL — инициативу с открытым исходным кодом, направленную на создание высококачественных, культурно значимых данных для языков ЮВА. Привлекая участников из стран ЮВА, SEA-VL стремится обеспечить лучшую культурную релевантность и разнообразие, способствуя большей инклюзивности недостаточно представленных языков в исследованиях VL. Помимо краудсорсинга, наша инициатива делает шаг вперед в изучении автоматического сбора культурно значимых изображений с помощью краулинга и генерации изображений. Во-первых, мы обнаруживаем, что краулинг изображений достигает примерно ~85% культурной релевантности, при этом он более экономически и временно эффективен, чем краудсорсинг. Во-вторых, несмотря на значительный прогресс в генеративных моделях обработки изображений, синтетические изображения остаются ненадежными в точном отражении культур ЮВА. Сгенерированные изображения часто не передают тонкие традиции и культурные контексты региона. В совокупности мы собрали 1,28 млн культурно значимых изображений ЮВА, что более чем в 50 раз превышает объем других существующих наборов данных. Благодаря SEA-VL мы стремимся сократить разрыв в представленности ЮВА, способствуя разработке более инклюзивных систем ИИ, которые аутентично отражают разнообразие культур региона.