ChatPaper.aiChatPaper

Crowdsource, Crawl ou Gerar? Criando o SEA-VL, um Conjunto de Dados Visão-Linguagem Multicultural para o Sudeste Asiático

Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

March 10, 2025
Autores: Samuel Cahyawijaya, Holy Lovenia, Joel Ruben Antony Moniz, Tack Hwa Wong, Mohammad Rifqi Farhansyah, Thant Thiri Maung, Frederikus Hudi, David Anugraha, Muhammad Ravi Shulthan Habibi, Muhammad Reza Qorib, Amit Agarwal, Joseph Marvin Imperial, Hitesh Laxmichand Patel, Vicky Feliren, Bahrul Ilmi Nasution, Manuel Antonio Rufino, Genta Indra Winata, Rian Adam Rajagede, Carlos Rafael Catalan, Mohamed Fazli Imam, Priyaranjan Pattnayak, Salsabila Zahirah Pranida, Kevin Pratama, Yeshil Bangera, Adisai Na-Thalang, Patricia Nicole Monderin, Yueqi Song, Christian Simon, Lynnette Hui Xian Ng, Richardy Lobo' Sapan, Taki Hasan Rafi, Bin Wang, Supryadi, Kanyakorn Veerakanjana, Piyalitt Ittichaiwong, Matthew Theodore Roque, Karissa Vincentio, Takdanai Kreangphet, Phakphum Artkaew, Kadek Hendrawan Palgunadi, Yanzhi Yu, Rochana Prih Hastuti, William Nixon, Mithil Bangera, Adrian Xuan Wei Lim, Aye Hninn Khine, Hanif Muhammad Zhafran, Teddy Ferdinan, Audra Aurora Izzani, Ayushman Singh, Evan, Jauza Akbar Krito, Michael Anugraha, Fenal Ashokbhai Ilasariya, Haochen Li, John Amadeo Daniswara, Filbert Aurelian Tjiaranata, Eryawan Presma Yulianrifat, Can Udomcharoenchaikit, Fadil Risdian Ansori, Mahardika Krisna Ihsani, Giang Nguyen, Anab Maulana Barik, Dan John Velasco, Rifo Ahmad Genadi, Saptarshi Saha, Chengwei Wei, Isaiah Flores, Kenneth Ko Han Chen, Anjela Gail Santos, Wan Shen Lim, Kaung Si Phyo, Tim Santos, Meisyarah Dwiastuti, Jiayun Luo, Jan Christian Blaise Cruz, Ming Shan Hee, Ikhlasul Akmal Hanif, M. Alif Al Hakim, Muhammad Rizky Sya'ban, Kun Kerdthaisong, Lester James V. Miranda, Fajri Koto, Tirana Noor Fatyanosa, Alham Fikri Aji, Jostin Jerico Rosal, Jun Kevin, Robert Wijaya, Onno P. Kampman, Ruochen Zhang, Börje F. Karlsson, Peerat Limkonchotiwat
cs.AI

Resumo

O Sudeste Asiático (SEA) é uma região de extraordinária diversidade linguística e cultural, mas ainda é significativamente subrepresentada em pesquisas de visão e linguagem (VL). Isso frequentemente resulta em modelos de inteligência artificial (IA) que não conseguem capturar as nuances culturais do SEA. Para preencher essa lacuna, apresentamos o SEA-VL, uma iniciativa de código aberto dedicada ao desenvolvimento de dados de alta qualidade e culturalmente relevantes para idiomas do SEA. Ao envolver colaboradores de países do SEA, o SEA-VL visa garantir maior relevância cultural e diversidade, promovendo uma maior inclusão de idiomas subrepresentados em pesquisas de VL. Além do crowdsourcing, nossa iniciativa avança um passo além na exploração da coleta automática de imagens culturalmente relevantes por meio de crawling e geração de imagens. Primeiro, descobrimos que o crawling de imagens atinge aproximadamente ~85% de relevância cultural, sendo mais eficiente em termos de custo e tempo do que o crowdsourcing. Segundo, apesar dos avanços significativos em modelos de visão generativos, as imagens sintéticas ainda não são confiáveis para refletir com precisão as culturas do SEA. As imagens geradas frequentemente falham em refletir as tradições e contextos culturais sutis da região. Coletivamente, reunimos 1,28 milhão de imagens culturalmente relevantes do SEA, mais de 50 vezes maior do que outros conjuntos de dados existentes. Por meio do SEA-VL, buscamos reduzir a lacuna de representação no SEA, promovendo o desenvolvimento de sistemas de IA mais inclusivos que representem autenticamente as diversas culturas do Sudeste Asiático.
English
Southeast Asia (SEA) is a region of extraordinary linguistic and cultural diversity, yet it remains significantly underrepresented in vision-language (VL) research. This often results in artificial intelligence (AI) models that fail to capture SEA cultural nuances. To fill this gap, we present SEA-VL, an open-source initiative dedicated to developing high-quality, culturally relevant data for SEA languages. By involving contributors from SEA countries, SEA-VL aims to ensure better cultural relevance and diversity, fostering greater inclusivity of underrepresented languages in VL research. Beyond crowdsourcing, our initiative goes one step further in the exploration of the automatic collection of culturally relevant images through crawling and image generation. First, we find that image crawling achieves approximately ~85% cultural relevance while being more cost- and time-efficient than crowdsourcing. Second, despite the substantial progress in generative vision models, synthetic images remain unreliable in accurately reflecting SEA cultures. The generated images often fail to reflect the nuanced traditions and cultural contexts of the region. Collectively, we gather 1.28M SEA culturally-relevant images, more than 50 times larger than other existing datasets. Through SEA-VL, we aim to bridge the representation gap in SEA, fostering the development of more inclusive AI systems that authentically represent diverse cultures across SEA.

Summary

AI-Generated Summary

PDF984March 12, 2025