クラウドソーシング、クローリング、または生成?東南アジアの多文化ビジョン・ランゲージデータセット「SEA-VL」の作成
Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia
March 10, 2025
著者: Samuel Cahyawijaya, Holy Lovenia, Joel Ruben Antony Moniz, Tack Hwa Wong, Mohammad Rifqi Farhansyah, Thant Thiri Maung, Frederikus Hudi, David Anugraha, Muhammad Ravi Shulthan Habibi, Muhammad Reza Qorib, Amit Agarwal, Joseph Marvin Imperial, Hitesh Laxmichand Patel, Vicky Feliren, Bahrul Ilmi Nasution, Manuel Antonio Rufino, Genta Indra Winata, Rian Adam Rajagede, Carlos Rafael Catalan, Mohamed Fazli Imam, Priyaranjan Pattnayak, Salsabila Zahirah Pranida, Kevin Pratama, Yeshil Bangera, Adisai Na-Thalang, Patricia Nicole Monderin, Yueqi Song, Christian Simon, Lynnette Hui Xian Ng, Richardy Lobo' Sapan, Taki Hasan Rafi, Bin Wang, Supryadi, Kanyakorn Veerakanjana, Piyalitt Ittichaiwong, Matthew Theodore Roque, Karissa Vincentio, Takdanai Kreangphet, Phakphum Artkaew, Kadek Hendrawan Palgunadi, Yanzhi Yu, Rochana Prih Hastuti, William Nixon, Mithil Bangera, Adrian Xuan Wei Lim, Aye Hninn Khine, Hanif Muhammad Zhafran, Teddy Ferdinan, Audra Aurora Izzani, Ayushman Singh, Evan, Jauza Akbar Krito, Michael Anugraha, Fenal Ashokbhai Ilasariya, Haochen Li, John Amadeo Daniswara, Filbert Aurelian Tjiaranata, Eryawan Presma Yulianrifat, Can Udomcharoenchaikit, Fadil Risdian Ansori, Mahardika Krisna Ihsani, Giang Nguyen, Anab Maulana Barik, Dan John Velasco, Rifo Ahmad Genadi, Saptarshi Saha, Chengwei Wei, Isaiah Flores, Kenneth Ko Han Chen, Anjela Gail Santos, Wan Shen Lim, Kaung Si Phyo, Tim Santos, Meisyarah Dwiastuti, Jiayun Luo, Jan Christian Blaise Cruz, Ming Shan Hee, Ikhlasul Akmal Hanif, M. Alif Al Hakim, Muhammad Rizky Sya'ban, Kun Kerdthaisong, Lester James V. Miranda, Fajri Koto, Tirana Noor Fatyanosa, Alham Fikri Aji, Jostin Jerico Rosal, Jun Kevin, Robert Wijaya, Onno P. Kampman, Ruochen Zhang, Börje F. Karlsson, Peerat Limkonchotiwat
cs.AI
要旨
東南アジア(SEA)は、言語的・文化的に非常に多様な地域であるにもかかわらず、視覚言語(VL)研究において著しく過小評価されています。これにより、人工知能(AI)モデルがSEAの文化的ニュアンスを捉えられないことがしばしば生じています。このギャップを埋めるため、私たちはSEA-VLを発表します。これは、SEA言語向けの高品質で文化的に関連性のあるデータを開発するためのオープンソースイニシアチブです。SEA諸国からの貢献者を巻き込むことで、SEA-VLは文化的関連性と多様性を確保し、VL研究における過小評価されている言語の包摂性を促進することを目指しています。クラウドソーシングに加えて、私たちのイニシアチブは、クローリングや画像生成を通じた文化的に関連性のある画像の自動収集の探求にも一歩踏み込んでいます。まず、画像クローリングは文化的関連性が約85%に達し、クラウドソーシングよりもコストと時間の効率が高いことがわかりました。次に、生成的視覚モデルの大幅な進歩にもかかわらず、合成画像はSEA文化を正確に反映する信頼性が低いままです。生成された画像は、地域の微妙な伝統や文化的文脈を反映し損なうことが多いです。全体として、私たちは1.28MのSEA文化的に関連性のある画像を収集し、他の既存のデータセットの50倍以上の規模を達成しました。SEA-VLを通じて、私たちはSEAにおける表現のギャップを埋め、SEA全体の多様な文化を真正に反映するより包括的なAIシステムの開発を促進することを目指しています。
English
Southeast Asia (SEA) is a region of extraordinary linguistic and cultural
diversity, yet it remains significantly underrepresented in vision-language
(VL) research. This often results in artificial intelligence (AI) models that
fail to capture SEA cultural nuances. To fill this gap, we present SEA-VL, an
open-source initiative dedicated to developing high-quality, culturally
relevant data for SEA languages. By involving contributors from SEA countries,
SEA-VL aims to ensure better cultural relevance and diversity, fostering
greater inclusivity of underrepresented languages in VL research. Beyond
crowdsourcing, our initiative goes one step further in the exploration of the
automatic collection of culturally relevant images through crawling and image
generation. First, we find that image crawling achieves approximately ~85%
cultural relevance while being more cost- and time-efficient than
crowdsourcing. Second, despite the substantial progress in generative vision
models, synthetic images remain unreliable in accurately reflecting SEA
cultures. The generated images often fail to reflect the nuanced traditions and
cultural contexts of the region. Collectively, we gather 1.28M SEA
culturally-relevant images, more than 50 times larger than other existing
datasets. Through SEA-VL, we aim to bridge the representation gap in SEA,
fostering the development of more inclusive AI systems that authentically
represent diverse cultures across SEA.Summary
AI-Generated Summary