ChatPaper.aiChatPaper

SEACrowd: 동남아시아 언어를 위한 다국어·다중모드 데이터 허브 및 벤치마크 제품군

SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

June 14, 2024
저자: Holy Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya
cs.AI

초록

동남아시아(SEA)는 언어적 다양성과 문화적 다양성이 풍부한 지역으로, 1,300개 이상의 토착 언어와 6억 7,100만 명의 인구를 보유하고 있습니다. 그러나 현재의 AI 모델들은 동남아시아의 텍스트, 이미지, 오디오 데이터셋의 상당한 부재로 인해 동남아시아 언어에 대한 AI 모델의 품질이 저하되고 있습니다. 동남아시아 언어에 대한 모델 평가는 고품질 데이터셋의 부족과 영어 학습 데이터의 지배적 영향으로 인해 어려움을 겪고 있으며, 이는 문화적 오표현의 가능성을 우려하게 합니다. 이러한 문제를 해결하기 위해, 우리는 SEACrowd를 소개합니다. SEACrowd는 협력적 이니셔티브로, 3가지 양식에 걸쳐 거의 1,000개의 동남아시아 언어에 대한 표준화된 코퍼스를 제공함으로써 자원 격차를 메우는 포괄적인 리소스 허브를 통합합니다. SEACrowd 벤치마크를 통해, 우리는 13개 작업에 걸쳐 36개의 토착 언어에 대한 AI 모델의 품질을 평가하며, 동남아시아의 현재 AI 환경에 대한 유용한 통찰을 제공합니다. 더 나아가, 우리는 동남아시아의 AI 미래를 위해 잠재적 유용성과 자원 공평성을 극대화할 수 있는 더 큰 AI 발전을 촉진하기 위한 전략을 제안합니다.
English
Southeast Asia (SEA) is a region rich in linguistic diversity and cultural variety, with over 1,300 indigenous languages and a population of 671 million people. However, prevailing AI models suffer from a significant lack of representation of texts, images, and audio datasets from SEA, compromising the quality of AI models for SEA languages. Evaluating models for SEA languages is challenging due to the scarcity of high-quality datasets, compounded by the dominance of English training data, raising concerns about potential cultural misrepresentation. To address these challenges, we introduce SEACrowd, a collaborative initiative that consolidates a comprehensive resource hub that fills the resource gap by providing standardized corpora in nearly 1,000 SEA languages across three modalities. Through our SEACrowd benchmarks, we assess the quality of AI models on 36 indigenous languages across 13 tasks, offering valuable insights into the current AI landscape in SEA. Furthermore, we propose strategies to facilitate greater AI advancements, maximizing potential utility and resource equity for the future of AI in SEA.

Summary

AI-Generated Summary

PDF331December 6, 2024