ChatPaper.aiChatPaper

크라우드소싱, 크롤링, 생성 중 어떤 방법을 선택할까? 동남아시아를 위한 다문화 시각-언어 데이터셋 SEA-VL 구축하기

Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

March 10, 2025
저자: Samuel Cahyawijaya, Holy Lovenia, Joel Ruben Antony Moniz, Tack Hwa Wong, Mohammad Rifqi Farhansyah, Thant Thiri Maung, Frederikus Hudi, David Anugraha, Muhammad Ravi Shulthan Habibi, Muhammad Reza Qorib, Amit Agarwal, Joseph Marvin Imperial, Hitesh Laxmichand Patel, Vicky Feliren, Bahrul Ilmi Nasution, Manuel Antonio Rufino, Genta Indra Winata, Rian Adam Rajagede, Carlos Rafael Catalan, Mohamed Fazli Imam, Priyaranjan Pattnayak, Salsabila Zahirah Pranida, Kevin Pratama, Yeshil Bangera, Adisai Na-Thalang, Patricia Nicole Monderin, Yueqi Song, Christian Simon, Lynnette Hui Xian Ng, Richardy Lobo' Sapan, Taki Hasan Rafi, Bin Wang, Supryadi, Kanyakorn Veerakanjana, Piyalitt Ittichaiwong, Matthew Theodore Roque, Karissa Vincentio, Takdanai Kreangphet, Phakphum Artkaew, Kadek Hendrawan Palgunadi, Yanzhi Yu, Rochana Prih Hastuti, William Nixon, Mithil Bangera, Adrian Xuan Wei Lim, Aye Hninn Khine, Hanif Muhammad Zhafran, Teddy Ferdinan, Audra Aurora Izzani, Ayushman Singh, Evan, Jauza Akbar Krito, Michael Anugraha, Fenal Ashokbhai Ilasariya, Haochen Li, John Amadeo Daniswara, Filbert Aurelian Tjiaranata, Eryawan Presma Yulianrifat, Can Udomcharoenchaikit, Fadil Risdian Ansori, Mahardika Krisna Ihsani, Giang Nguyen, Anab Maulana Barik, Dan John Velasco, Rifo Ahmad Genadi, Saptarshi Saha, Chengwei Wei, Isaiah Flores, Kenneth Ko Han Chen, Anjela Gail Santos, Wan Shen Lim, Kaung Si Phyo, Tim Santos, Meisyarah Dwiastuti, Jiayun Luo, Jan Christian Blaise Cruz, Ming Shan Hee, Ikhlasul Akmal Hanif, M. Alif Al Hakim, Muhammad Rizky Sya'ban, Kun Kerdthaisong, Lester James V. Miranda, Fajri Koto, Tirana Noor Fatyanosa, Alham Fikri Aji, Jostin Jerico Rosal, Jun Kevin, Robert Wijaya, Onno P. Kampman, Ruochen Zhang, Börje F. Karlsson, Peerat Limkonchotiwat
cs.AI

초록

동남아시아(SEA)는 언어적, 문화적으로 매우 다양한 지역임에도 불구하고, 비전-언어(VL) 연구에서 상당히 저조한 대표성을 보이고 있습니다. 이로 인해 동남아시아의 문화적 뉘앙스를 제대로 반영하지 못하는 인공지능(AI) 모델들이 종종 만들어지곤 합니다. 이러한 격차를 메우기 위해, 우리는 동남아시아 언어를 위한 고품질의 문화적 관련성을 갖춘 데이터를 개발하는 오픈소스 프로젝트인 SEA-VL을 소개합니다. SEA 국가의 기여자들을 참여시킴으로써, SEA-VL은 더 나은 문화적 관련성과 다양성을 보장하고, VL 연구에서 소외된 언어들의 포용성을 증진하는 것을 목표로 합니다. 크라우드소싱을 넘어, 우리의 이니셔티브는 크롤링과 이미지 생성을 통해 문화적으로 관련된 이미지를 자동으로 수집하는 방법을 탐구합니다. 첫째, 이미지 크롤링은 약 85%의 문화적 관련성을 달성하면서도 크라우드소싱보다 비용과 시간 면에서 더 효율적임을 발견했습니다. 둘째, 생성적 비전 모델의 상당한 발전에도 불구하고, 합성 이미지는 동남아시아 문화를 정확히 반영하는 데 여전히 신뢰할 수 없는 것으로 나타났습니다. 생성된 이미지들은 종종 이 지역의 미묘한 전통과 문화적 맥락을 반영하지 못합니다. 종합적으로, 우리는 128만 개의 동남아시아 문화적 관련 이미지를 수집했으며, 이는 기존 데이터셋보다 50배 이상 큰 규모입니다. SEA-VL을 통해, 우리는 동남아시아의 대표성 격차를 해소하고, 동남아시아 전역의 다양한 문화를 진정성 있게 반영하는 더 포용적인 AI 시스템의 개발을 촉진하고자 합니다.
English
Southeast Asia (SEA) is a region of extraordinary linguistic and cultural diversity, yet it remains significantly underrepresented in vision-language (VL) research. This often results in artificial intelligence (AI) models that fail to capture SEA cultural nuances. To fill this gap, we present SEA-VL, an open-source initiative dedicated to developing high-quality, culturally relevant data for SEA languages. By involving contributors from SEA countries, SEA-VL aims to ensure better cultural relevance and diversity, fostering greater inclusivity of underrepresented languages in VL research. Beyond crowdsourcing, our initiative goes one step further in the exploration of the automatic collection of culturally relevant images through crawling and image generation. First, we find that image crawling achieves approximately ~85% cultural relevance while being more cost- and time-efficient than crowdsourcing. Second, despite the substantial progress in generative vision models, synthetic images remain unreliable in accurately reflecting SEA cultures. The generated images often fail to reflect the nuanced traditions and cultural contexts of the region. Collectively, we gather 1.28M SEA culturally-relevant images, more than 50 times larger than other existing datasets. Through SEA-VL, we aim to bridge the representation gap in SEA, fostering the development of more inclusive AI systems that authentically represent diverse cultures across SEA.

Summary

AI-Generated Summary

PDF984March 12, 2025